Nat Commun|机器学习立大功！中山一院&上海仁济医院团队：lncRNA与病理图像深度学习模型碰撞出14分+的火花

“萝卜快跑”替代了武汉出租车司机，谁能解放咱们科研民工呢？

生信？机器学习？AI？

正解！具体来说就是，利用机器学习/AI模型的生信分析！不受限于实验，不局限于样本，有自测数据可以用机器学习提升分析创新性，但0实验0样本照样可以挖掘公共数据做研究发文章~

馆长今天就发现了一篇非常棒的基因组+病理图像+临床信息多模态数据整合的文章，思路创新性很高，大部分是机器学习建模，实验部分只做了简单测序和表达验证发到了NC上，性价比还是很高的！

1. 思路创新：常见的多组学思路多是基因组、转录组、蛋白组、代谢组等分子层面上组学联合，这篇文章是把基因、病理图像和临床信息数据这3个最常用的医学模态数据整合，即提高了思路的创新性、减少了实验成本，又贴近临床易于转化，非常适合临床科研人员，用上这种思路临床医生朋友也可以轻松实现临床科研两手抓。

2.实验简单：只需做个qPCR实验，测序直接送测序公司，其实多数工作量还是生信分析，没太多实验时间也完全可以实现这个思路。

想当初馆长还在实验室的时候早8晚11一周无休，实验还做不完，Chip实验屡战屡败，文章紧挨着毕业时间接收，差点就得延毕。要是当时就知道这么好的生信思路就好了，不做实验或者少做点实验就能毕业，咱就不用苦哈哈的当科研民工了~所以，我错过了不能再让我的粉丝朋友错过，这么棒的思路不学就亏大了，用上这个思路，下一个发10分+的就是你，还能愁毕不了业、升不了副高？思路复现有难度？生信高级分析搞不定？来扫码找馆长，咱有专业团队，精准推荐最适思路，争做您科研路上的助推器 ~

定制生信分析

云服务器租赁

加好友备注“99”领取试用

题目：一种通过临床-组织学-基因组分析整合的多分类器系统，用于预测状肾细胞癌复发

杂志：Nature Communications（IF=14.7）

发表日期：2024年7月

研究背景

肾癌中超过 90% 的肾癌病例是肾细胞癌（RCC），其中包括具有不同组织学特征、临床病程和对治疗反应的各种亚型。但目前的分期系统不足以进行更准确的风险分层，而且将基因组学和组织学整合到癌症预后中显示出前景，因此迫切需要一种更全面的分类器来准确预测手术后复发。

数据来源

研究思路

1.LncRNA分类器的构建：首先对发现集中的53个pRCC和邻近正常组织进行lncRNA测序，差异分析获得40个DElncRNA。在训练集的样本中通过qPCR来量化 40 个DElncRNA的表达，随后基于这40个lncRNA进行单因素Cox回归和多变量 LASSO Cox 回归分析，筛选出4个 lncRNA以构建无复发生存期（RFS）风险评分模型（图1A）。

2.基于全切片图像（WSI）的分类器构建：首先在训练集中挑选出182例预后明确的患者，术后随访超过7年且无复发记录的患者类别为预后好（n=127），术后3年内有复发记录的患者类别为预后差（n=55）。然后利用MobileNet V3网络结构和Noisy-AND池化函数，通过多实例学习分别构建基于10×分辨率和40×分辨率的WSI分类器以预测肿瘤复发的概率，并基于该分类器输出的概率值，将患者分为高风险和低风险组（图1B）。

3.临床病理分类器的构建：通过单因素和多因素Cox回归分析评估年龄、性别、分级、病理分期等几个临床病理因素对RFS的独立预后性，并基于分级和病理分期开发了一个临床病理学分类器*（图1C）。

4.多分类器系统的构建：作者集成了基于4个lncRNA的分类器、基于WSI的分类器和使用Cox回归系数的临床病理分类器，开发一个多分类器系统。

图1 研究设计流程图

主要结果

1. 多分类器系统的预测性能评估

首先评估了单个分类器和多分类器系统的C指数，发现多分类器风险评分预测RFS的C指数为0.831，明显高于任何单一分类器。基于WSI的评分在10×WSI下的C指数预测准确率高于40×WSI，因此后续选择10×WSI评分进行分析。随后使用中位数多分类器风险评分作为临界值将患者分为高低风险组，进行KM生存分析。结果显示，在训练接和2个独立验证集中，与低风险组相比，高风险组患者的RFS时间和OS更短（图2）。

图2：多分类器系统的预测性能评估

2. 多分类器系统的分层分析与列线图构建

当按临床变量（年龄、性别、年级和分期）分层时，多分类器系统仍然是一个具有临床和统计学意义的预后模型，可以用于预测所有 793 例 pRCC 患者的 RFS 和 OS（图3）。随后，作者结合了基于 lncRNA 的分类器、基于 WSI 的分类器和临床病理变量（分期和分级）构建了一个列线图来预测 pRCC 患者 3 年、5 年和 7 年无复发概率（图 4A）。校准图显示，列线图在训练集、独立验证集和TCGA集中均有很好的预测能力（图4B）。

图3：多分类器系统的分层分析

图4：列线图的构建与评估

3. 多分类器系统与其他模型对比

在TCGA数据集中，基于CIMP、DNA甲基化、mRNA和microRNA谱分析，已经定义了几个pRCC簇，作者将这些基于分子聚类的分析与TCGA集中的多分类器风险评分进行了比较，C指数结果显示，与任何基于分子聚类的方法相比，多分类器风险评分在预测RFS方面明显更准确（图5A）。TCGA以往研究发现CIMP高甲基化模式是pRCC一个非常重要的预后因素，在本研究中发现所有以 CIMP 模式为特征的肿瘤患者都具有超高的基于多分类器的风险评分（图5B），并且在具有 CIMP 模式和基于多分类器的超高风险评分的 pRCC 患者中，RFS 最差（图5C），这表明多分类器系统与CIMP具有很强的相关性，可以准确预测CIMP模式。

图5：多分类器系统与其他模型对比

小结

看完馆长的分析，是不是觉得这个思路确实很好呢？3种医学常用模态数据的整合建模，思路既有新颖性又贴合临床，实验部分很简单、建模过程也不复杂，但综合起来就能发个Nature子刊，还是很香的啊！担心纯生信不好发文的朋友可以尝试复现下这类思路，实验占比少，主要靠生信分析撑工作量，比较适合临床发文！想复现这个思路但选题分析有困难？欢迎扫码联系馆长！专业团队为你保驾护航，1V1定制创新思路~

馆长有话说

馆长会持续为大家带来最新生信思路，也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务，对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦！

生信分析

方案设计

服务器租赁

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

2.Nature旗下，顶级豪门“水刊”，收纯生信，影响因子却遭腰斩！写好的文章再不投，影响因子回到解放前了！

3.中医药研究又有新思路！“网络荟萃分析”和“网络药理学”两大王炸强强联手，成都中医药大学团队斩获一区Top，怎么做？