Py学习  »  机器学习算法

IF=14.3!病理组学加入“生信分析大家庭”!病理组+基因组+转录组,深度学习轻松拿下?

挑圈联靠 • 昨天 • 7 次点击  

欢迎来看雪球讲套路、讲文献!最近讲了不少孟德尔随机化的文献,但要说到生存预测,还是得回“生信老家”看看。


2025生物信息学有哪些变化,还好发吗?

方法学的发展,让生信有新招了。


比如这篇文献纳入组织病理学、基因组学和转录组学的数据,通过可解释的多模态融合模型进行整合,预测泛癌(该研究包含12种癌种)患者的生存预后。


啥是可解释的多模态融合模型?

比喻成整合多种机器学习算法的生信套路

是不是好理解一点了

看雪球拆解吧


仅用公共数据也能搭乘深度学习快车?

可添加雪球 回复“个性化”咨询定制


Interpretable Multimodal Fusion Model for Bridged Histology and Genomics Survival Prediction in Pan-Cancer

泛癌中用于桥接组织学和基因组学生存预测的可解释多模态融合模型


期刊:Advanced Science

IF:14.3

发布时间:2025/03/07


 技术路线 


数据来源:

TCGA数据库:H&E 染色病理组织切片图像 (WSI)、基因组分子测序数据和临床信息。

ICGC-ARGO:结直肠癌患者队列 (COCC) 的完整多组学数据集和临床随访信息。


多模态融合模型开发:

提出了一个名为Brim的桥接多模态融合模型,该模型通过Transformer-based MIL方法学习WSIs的空间分布和相互作用,并通过桥接网络学习WSIs和基因组分子特征之间的关联,特别是在仅使用WSIs预测缺失分子信息方面表现出色。


模型架构设计:

Brim模型由四个主要部分组成:WSI预处理、病理图像特征模块、分子特征模块和桥接网络。通过预训练的ResNet50模型提取图像块的特征嵌入,并应用基于Transformer的多实例学习方法整合WSIs的斑块和空间级信息。对于高维分子数据,使用自归一化网络(SNN)进行学习以抵抗过拟合。桥接网络通过双向自编码器网络构建,以学习跨模态交互。


模型性能评估:

验证Brim模型在多模态数据上的预测性能,并与现有的单模态和多模态模型进行比较。

在TCGA数据库的12种癌症类型中,Brim模型的平均C-index达到0.682,优于所有单模态模型(TransMIL、AMIL和SNN)和现有的多模态融合模型(MMF)。特别是在BRCA和COADREAD癌症类型中,Brim模型的C-index分别达到0.677和0.720,显示出约10%的平均提升。


模型框架在癌症表征学习中的评估:

评估Brim模型在癌症表征学习中的性能,并与现有的多模态融合模型进行比较。

Brim模型在所有12种癌症中的平均C-index为0.682,高于MMF模型的0.670。此外,Brim模型在所有个体癌症中的表现均优于MMF,并且在LUSC癌症中成功分层高风险和低风险患者,而MMF未能实现。


仅使用WSIs的模型性能评估:

评估Brim模型在仅使用WSIs时的预测性能,以提高模型在临床实践中的实用性。

Brim模型在仅使用WSIs时的平均C-index达到0.630,优于TransMIL模型的0.621。特别是在BRCA和KIRC癌症中,Brim模型的C-index分别达到0.631和0.654,显示出1.5%的提升。


模型可解释性分析:

通过可解释的方法(如注意力机制和集成梯度归因分析)来表征WSI斑块和基因组分子特征在泛癌预后预测中的贡献。

:细胞区域的更大关注,与TransMIL、AMIL和MMF模型相比,能够捕获更多相关的生物学信息。通过IG值分析,Brim模型识别出与患者预后高度相关的基因组分子特征,并通过单变量Cox回归分析进一步验证了这些特征的独立预后价值。


模型性能在COCC队列中的验证:

使用独立的COCC队列验证Brim模型的可靠性和结果的一致性。

在COCC队列中,Brim模型在提供多模态数据时能够准确分层高风险和低风险患者(HR 2.05, 95% CI 1.43–2.94, p < 0.0001),并且在仅使用WSIs时也能获得相同的结果(HR 1.52, 95% CI 1.07–2.16, p < 0.05)。注意力热图分析显示Brim模型在COCC队列中对WSI中的肿瘤细胞区域有强烈关注,并且通过IG值分析识别出与结直肠癌进展相关的基因。



 研究结果 


Table 1 C 指数模型对 12 种癌症类型生存预测的性能


Fig 2 Brim 和基线方法在预后预测中的性能比较


Table 2 Brim(缺失基因组数据)和 TransMIL 之间的 C 指数模型性能比较


Fig 3 预后相关特征的模型可解释性和可视化


Fig 4 使用内部 COCC 队列进行模型验证




 深度学习多模态,生信的又一个春天? 


可以说借助深度学习等方法的能量,生物信息学在研究的深度和广度方面都有了明显的进步。对使用生信发文的人来说,就是可供选择的数据类型更广、可选择的套路更多,抓住机会,突破自己的发文瓶颈也不是没有可能。


更深入,更透明:

传统生信研究多依赖于基因组、转录组、蛋白组等低维数据。引入影像组学、病理组学,就像敞开了更复杂、更高维数据分析的大门。

可解释机器学习技术的发展,提供了将“复杂模型的决策逻辑 - 生物学机制”相对应的途径。

技术的进步,增强了研究的生物学解释深度和临床应用价值。


更广泛、更多可能性:

生信研究的应用场景通过引入人工智能、多模态学习等,得到了极大扩展。

影像组学使得从医学影像(如MRI、CT、超声)中提取表型特征成为可能;病理组学通过深入分析数字病理切片,赋能癌症分型、预后预测等多领域研究。

跨模态融合,使研究者有机会进行多层次、全景式理解生命系统的综合探索。


可解释机器学习/人工智能/多模态

在Nature及其子刊中尤其火热哦~







劳动节小长假前最后一场直播将在明晚8点开始,这一次雪球也将借一借AI的东风,讲解AI领域中的潜力股助力生信研究&临床研究的方法😉天下武功唯快不破,PubMed全站发文仅2篇的套路确定不来看?感兴趣就扫码添加雪球,回复“1”进群预约,首次添加还有见面好礼喔~


比起“4+4”涉事人员靠关系、靠捷径,挂名发表文章,事后被人揭发面对全网质疑;还是老老实实把握那些能当一作的机会吧!想不想跨越技术门槛,加速发表SCI?是否需要将手头的自测数效益最大化,实现充分的挖掘分析?现在添加雪球老师回复“个性化”咨询吧~


✅立足科研 守正创新

✅上下限跨度广

✅适合优化分析/进阶分数段/丰富前期背景等需求

✅涵盖众多实用创新套路

✅量身定制,绝无量产,绝不敷衍


 雪球的生信套路 每周周中讲解 

注意没有星标⭐的话

容易错过更新哦

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181634
 
7 次点击