新闻动态

  • 首页
  • 新闻动态
  • Genomics England 使用 Amazon SageMaker 预测癌症亚型和多模态数据中

Genomics England 使用 Amazon SageMaker 预测癌症亚型和多模态数据中

2026-01-27 12:02:30

Genomics England利用Amazon SageMaker预测癌症亚型和患者生存率

关键要点

Genomics England与AWS合作,利用多模态数据和机器学习技术,以更准确地识别癌症的亚型和严重程度。研究使用了来自癌症基因组图谱TCGA的公开数据,主要集中在乳腺癌和消化道癌症的分析。该项目结合了两种不同的机器学习框架,并通过Amazon SageMaker构建模型管道,实现了更好的生存分析和亚型识别。

本文由Cemre Zor、Francisco Azuaje、Epameinondas Fritzilas、Lou Warnett、Tamas Madl、Matthew Howard、Pablo Nicolas Nuez Plcher、Prabhu Arumugam、Shreya Ruparelia、Samuel Barnett、Sam Price和Tom Dyer共同撰写,发表于2024年9月10日。

Genomics England 为英国的国家医疗服务系统NHS分析测序基因组,并为研究人员提供数据,以推动生物研究。为了帮助人们过上更长久、更健康的生活,Genomics England 关注使用机器学习实现更准确的癌症亚型和严重程度识别。为探讨多模态数据例如基因组和影像数据对提高模型准确性的影响,Genomics England 启动了一个多模态项目,旨在增强其数据集,并与AWS全球健康和非营利市场开发数据科学团队以及AWS专业服务团队合作,创建自动癌症亚型分类和生存率检测管道,并探索其在公开数据上的准确性。

在本文中,我们详细介绍了在生存分析和癌症亚型识别领域构建的两个概念验证PoC实验,使用包括基因表达、突变和拷贝数变异数据在内的基因组数据以及组织病理学图像数据。我们提供了对可解释性、鲁棒性以及在AWS上构建复杂ML工作流的最佳实践的洞见。这些多模态管道正在应用于Genomics England的癌症队列中,以增强我们对癌症生物标志物和生物学的理解。

1 数据

这些概念验证使用了来自癌症基因组图谱TCGA的公开癌症研究数据,这些数据包含配对的高通量基因组分析和带有生存结果及组织学分级标签的全切片图像。具体而言,这些PoC聚焦于组织样本的全切片组织病理图像,以及基因表达、拷贝数变异和有害基因变体的存在,以分析两种癌症类型:乳腺癌BRCA和消化道癌症PanGI。下面的表格显示了每种癌症类型的样本大小。

癌症类型样本大小乳腺癌BRCAXX消化道癌症PanGIXX

2 多模态机器学习框架

处理多模态亚型和生存预测的机器学习管道分三个阶段进行构建。首先,实施了一种最先进的框架,称为整合生存估计的病理组学组学研究平台PORPOISE (Chen et al 2022)。接下来,AWS提议、开发并实施了一种基于分层极值编码HEEC的新架构,旨在减轻PORPOISE的局限性。最后阶段通过使用一种自监督训练的基础模型Hierarchical Image Pyramid Transformer (HIPT) (Chen et al 2023)改善HEEC和PORPOISE的结果。

小熊加速器安卓版

21 病理组学组学研究平台PORPOISE

PORPOISE (Chen et al 2022) 是一个多模态机器学习框架,由三个子网络组件组成:

CLAM组件:基于注意力机制的多实例学习网络,训练于预处理的全切片图像WSI输入,CLAM使用预先训练的ResNet50从256256的图像块中提取特征。自归一化网络组件:用于提取深层分子特征。多模态融合层:整合来自上述两个组件的特征表示,通过建模它们的成对交互作用。

尽管表现良好,但观察到PORPOISE在缺少基因表达数据时,输出的多模态性能低于单一最佳模态成像的性能,这是在进行消化道癌症PanGI数据的生存分析时发现的见图2。一个可能的解释是,在没有过拟合的情况下,该模型难以处理极高维度、稀疏的基因组数据。

Genomics England 使用 Amazon SageMaker 预测癌症亚型和多模态数据中

22 分层极值编码HEEC:一种新型监督多模态机器学习框架

为了缓解PORPOISE的局限性,AWS开发了一种新型模型结构HEEC,基于以下三个思想:

使用树集成算法如LightGBM来减轻在训练PORPOISE时观察到的稀疏性和过拟合问题。使用新颖的编码方案极值编码构建表示,保持空间关系,因此具备可解释性。分层学习以实现多个空间尺度的表示。

HEEC架构的工作流程如下:每个输入的WSI以递归的方式划分为40964096和256256像素的块,所有块通过ResNet50获取嵌入向量。此外,通过图神经网络GNNs提取细胞核级别的表示,考虑局部细胞核邻域及其空间关系。接下来,通过正未标记学习选择重要的块嵌入,而GNN的重要性过滤用于保留最佳细胞核特征。最终,通过极值编码对层次嵌入进行编码:从每个向量条目中取最小值和最大值,形成每个WSI的单一向量。

在基因组层面,通过排除与预测目标不相关的特征进行重要性过滤。剩余特征与病理特征横向拼接,并应用梯度提升决策树分类器LightGBM进行预测分析。

由于HEEC嵌入具备隐含的空间信息,因此HEEC架构本身具有可解释性。LightGBM模型对特征的重要性支持,便于过滤出最重要的特征以实现准确预测,并反向追踪其来源位置。该位置可在组织病理切片上直观标示,以供专家病理学家验证。下表和图2展示了PORPOISE和HEEC的性能结果,显示HEEC是唯一能够通过组合多模态超越最佳单一模态结果的算法。

模型分类和生存预测性能PORPOISEXXHEECXX

23 使用基础模型的改进

尽管取得了良好的结果,PORPOISE和HEEC算法使用的基础架构是基于监督学习训练的例如ImageNet预训练的ResNet50。为进一步提高性能,最后阶段的概念验证中研究了一种基于自监督学习的方法,称为Hierarchical Image Pyramid Transformer (HIPT) (Chen et al 2023)。需要注意的是,HIPT目前仅限于影像模态WSIs的分层自监督学习,未来的工作包括将自监督学习扩展到基因组模态。

HIPT首先定义了一种由不重叠区域组成的层次结构,这些区域的尺寸为1616、256256和40964096像素。最底层的特征通过基于DINO的自监督学习算法与视觉变换器ViT骨架提取。从每个256256区域聚合最底层特征,组成中层输入特征,再重复自监督学习和全局池化的过程。最终在40964096区域上通过全局注意力池化获得最终嵌入。这一预训练完成后,仅对层次结构的最后一层作用于40964096区域进行微调使用多实例学习。

Genomics England探讨了使用HIPT嵌入是否优于使用ImageNet预训练的ResNet50编码器,初步实验显示生存分析中每种癌症类型的Harrels C指数提高了约005。这些嵌入还有其他好处,比如体积更小,意味着模型更快地训练,并且具有更小的占用空间。

3 AWS架构

作为概念验证的部分,我们使用Amazon SageMaker构建了一个多模态机器学习的参考架构见图3,这是一个用于构建、训练和部署机器学习模型的平台,具备完全托管的基础设施、工具和工作流。我们的目标是展示一些通用的、可复用的模式,这些模式与具体的算法无关:

解耦数据预处理和特征计算与模型训练:在我们的用例中,我们一次性处理病理图像为数值特征表示,然后将得到的特征向量存储在Amazon S3中,并重新用于训练不同的模型。同样,我们还有一个处理分支,用于处理和提取基因组数据的特征。解耦模型训练与推理:在尝试不同模型结构和超参数的过程中,我们在SageMaker的模型注册表中跟踪模型版本、超参数与指标。我们参考模型注册表来审核实验,并决定部署哪些模型进行推理。将长时间运行的计算封装在容器内部,并委托其执行给SageMaker:任何长时间运行的计算都受益于这种模式,无论是用于数据处理、模型训练还是批量推理。这样,无需管理运行容器的底层计算资源。通过按需付费模式降低成本资源在容器完成运行后被销毁,并且架构易于扩展以并行运行多个作业。将多个容器化作业编排到SageMaker管道:我们构建一个管道后,可以多次使用不同的参数运行它。因此,管道调用可以在更高层次的抽象中引用,而不必不断监控其长期组成作业的状态。委托SageMaker的超参数调整:调整作业是一组相关的训练作业均由SageMaker管理,有效地探索超参数空间。这些训练作业使用相同的输入数据进行训练和验证,但每个作业的学习算法的超参数不同。在每次迭代中选择探索的超参数值是由SageMaker自动选择的。

31 开发与生产环境的分离

一般来说,我们建议在生产环境之外进行所有开发工作,以最小化敏感生产数据泄露和损坏的风险,同时避免生产环境被中间数据和软件工件污染,从而掩盖数据追踪。如果数据科学家在开发阶段需要访问生产数据进行探索性分析和建模工作,可以采用多种策略以最小化风险。一种有效的策略是在测试环境中应用数据掩码或合成数据生成技术,模拟真实场景,而不影响敏感数据。此外,生产级数据可以安全地移动到独立环境进行分析。在不同环境之间实施访问控制和权限,可以限制数据流动,保持隔离,确保最小的访问权限。

Genomics England创建了两个独立的机器学习环境,用于测试和生产级数据交互。每个环境位于各自隔离的AWS账户中。测试环境在数据存储策略上模拟生产环境,但使用不包含个人身份信息PII或受保护健康信息PHI的合成数据,而非生产数据。该测试环境用于开发必要的基础设施组件并在受控设置中细化最佳实践,可在部署到生产之前使用合成数据进行测试。在所有环境中实施严格的访问控制,包括基于角色的权限,采用最小特权原则,确保只有授权人员可以与敏感数据交互或修改已部署的资源。

32 使用CI/CD管道实现自动化

关联到此,我们建议机器学习开发人员使用基础设施即代码来描述在其AWS账户中部署的资源,并利用持续集成和交付CI/CD管道自动化代码质量检查、单元测试及工件的创建,例如容器镜像。同时,将CI/CD管道配置为自动将创建的工件部署到目标AWS账户中,无论是用于开发还是生产。这些成熟的自动化技术最大程度地减少了与手动部署相关的错误,并提高了开发和生产环境之间的可重复性。

Genomics England探讨了CI/CD管道自动部署平台资源及自动测试代码的使用。

4 结论

Genomics England在基因组数据处理方面有着悠久的历史,然而影像数据的加入则增加了复杂性与潜力。本文中概述的两个PoC在启动Genomics England朝着创建一个多模态环境以促进癌症机器学习开发的努力中起到了至关重要的作用。在Genomics England的多模态环境中实施最先进的模型并协助开发稳健的实践,将确保用户在研究中获得最大支持。

“在Genomics England,我们的使命是实现基因组和多模态信息的巨大潜力,以进一步推动精准医学,并推动AWS云计算的成功。”Prabhu Arumugam博士,Genomics England临床数据和影像主任

致谢

本博客中发布的结果部分基于TCGA研究网络生成的数据:https//wwwcancergov/tcga。

关于作者

Cemre Zor,博士,是Amazon Web Services的高级医疗数据科学家。Cemre持有理论机器学习博士学位,并在计算机视觉和医疗保健领域拥有博士后经验。她与全球医疗保健和生命科学客户合作,支持他们在解决实际医疗问题时采用机器学习建模和先进分析方法。

Tamas Madl,博士,曾是Amazon Web Services的高级医疗数据科学家和业务发展主管,具备在医疗保健与机器学习交叉点上的学术及行业经验。Tamas帮助医疗保健和生命科学领域的客户通过采用机器学习进行创新。他在曼彻斯特大学获得计算机科学博士学位。

Epameinondas Fritzilas,博士,是Amazon Web Services的高级顾问。他与客户积极合作,设计和构建数据分析和AI应用的解决方案。他拥有生物信息学博士学位,在生物科技和医疗保健领域有十五年的行业经验。

Lou Warnett 是Amazon Web Services的医疗数据科学家。他协助全球医疗保健和生命科学客户,针对数据科学、机器学习和AI的一些紧迫挑战,最近尤其重视生成性AI。在加入AWS之前,Lou在伦敦帝国学院获得数学与计算硕士学位。

Sam Price 是Amazon Web Services的专业服务顾问,专注于AI/ML和数据分析。他与公共部门客户,尤其是在医疗保健和生命科学领域的客户紧密合作,解决挑战性问题。在不工作的情况下,Sam喜欢弹吉他、打网球和观看他最喜欢的独立音乐组合。

Shreya Ruparelia 是Amazon Web Services的AI和数据顾问,专注于数据科学和机器学习,特别是开发生成AI应用。她与公共部门的医疗保健组织合作,创造创新的AI驱动解决