数据来源:
TCGA数据库:H&E 染色病理组织切片图像 (WSI)、基因组分子测序数据和临床信息。
ICGC-ARGO:结直肠癌患者队列 (COCC) 的完整多组学数据集和临床随访信息。
多模态融合模型开发:
提出了一个名为Brim的桥接多模态融合模型,该模型通过Transformer-based MIL方法学习WSIs的空间分布和相互作用,并通过桥接网络学习WSIs和基因组分子特征之间的关联,特别是在仅使用WSIs预测缺失分子信息方面表现出色。
模型架构设计:
Brim模型由四个主要部分组成:WSI预处理、病理图像特征模块、分子特征模块和桥接网络。通过预训练的ResNet50模型提取图像块的特征嵌入,并应用基于Transformer的多实例学习方法整合WSIs的斑块和空间级信息。对于高维分子数据,使用自归一化网络(SNN)进行学习以抵抗过拟合。桥接网络通过双向自编码器网络构建,以学习跨模态交互。
模型性能评估:
验证Brim模型在多模态数据上的预测性能,并与现有的单模态和多模态模型进行比较。
在TCGA数据库的12种癌症类型中,Brim模型的平均C-index达到0.682,优于所有单模态模型(TransMIL、AMIL和SNN)和现有的多模态融合模型(MMF)。特别是在BRCA和COADREAD癌症类型中,Brim模型的C-index分别达到0.677和0.720,显示出约10%的平均提升。
模型框架在癌症表征学习中的评估:
评估Brim模型在癌症表征学习中的性能,并与现有的多模态融合模型进行比较。
Brim模型在所有12种癌症中的平均C-index为0.682,高于MMF模型的0.670。此外,Brim模型在所有个体癌症中的表现均优于MMF,并且在LUSC癌症中成功分层高风险和低风险患者,而MMF未能实现。
仅使用WSIs的模型性能评估:
评估Brim模型在仅使用WSIs时的预测性能,以提高模型在临床实践中的实用性。
Brim模型在仅使用WSIs时的平均C-index达到0.630,优于TransMIL模型的0.621。特别是在BRCA和KIRC癌症中,Brim模型的C-index分别达到0.631和0.654,显示出1.5%的提升。
模型可解释性分析:
通过可解释的方法(如注意力机制和集成梯度归因分析)来表征WSI斑块和基因组分子特征在泛癌预后预测中的贡献。
:细胞区域的更大关注,与TransMIL、AMIL和MMF模型相比,能够捕获更多相关的生物学信息。通过IG值分析,Brim模型识别出与患者预后高度相关的基因组分子特征,并通过单变量Cox回归分析进一步验证了这些特征的独立预后价值。
模型性能在COCC队列中的验证:
使用独立的COCC队列验证Brim模型的可靠性和结果的一致性。
在COCC队列中,Brim模型在提供多模态数据时能够准确分层高风险和低风险患者(HR 2.05, 95% CI 1.43–2.94, p < 0.0001),并且在仅使用WSIs时也能获得相同的结果(HR 1.52, 95% CI 1.07–2.16, p < 0.05)。注意力热图分析显示Brim模型在COCC队列中对WSI中的肿瘤细胞区域有强烈关注,并且通过IG值分析识别出与结直肠癌进展相关的基因。