这样的分析套路还真是不多见!机器学习0实验屡试不爽新套路!
天空一声巨响,馆长闪亮登场!嘿嘿,眨眼间一个周末又过去咯,不知道大家的论文进度怎样了呢?要是还没什么思路的话,不妨一起看看馆长的今日份分享!馆长今日分享的机器学习生信不涉及任何湿实验验证!大伙放心食用!各取所需!
来自美国伊利诺伊大学癌症中心的团队,于5月23日在自然杂志旗下期刊《Communications Biology》发表了题为《Pan-cancer discovery of somatic mutations from RNA sequencing data》的文章,馆长觉得这篇文章中的众多生信方法都值得大家拿小本本记下来!那么咱们赶紧分析分析~
1、TCGA公共测序数据+体细胞突变分析+5种机器学习算法构建模型!作者团队先根据机器学习构建出筛选方法,再系统地鉴定来自癌症基因组图谱(TCGA)中8000多个肿瘤的RNA体细胞突变数据,并成功提取出特征性较强的新突变!
2、泛癌+体细胞突变在线图谱的使用!基于32种癌症的体细胞突变图谱的上线,进一步拓展了本文的实际临床价值!也是本文备受审稿人喜爱的重要原因!ps:想了解更多机器学习创新方法的朋友可扫码联系馆长!此外,馆长这里更有专业的硕博团队随时为您排忧解难!!
定制生信分析
云服务器租赁
加好友备注“99”领取试用
题目:在泛癌研究中,从RNA测序数据中发现体细胞突变的标志 杂志:Communications Biology公众号回复“666”即可领取原文献,文献编号240731DNA测序是目前常用的识别体细胞突变(RNA-SMs)的方法,但RNA测序也可以提供一种替代策略。现有的RNA-SM识别方法存在一些局限性,如没有充分考虑RNA测序数据的特点,易产生较高的假阳性率。因此,作者开发了一个基于机器学习的综合变异分析管道IMAPR,以更准确地从RNA测序数据中发现RNA-SMs。 | | | |
| | 45例肺腺癌(LUAD)、20例肺鳞癌(LUSC)、35例头颈鳞癌(HNSCC) | |
| | | |
| | | |
| | 32种癌症类型,共297例宫颈鳞癌(CESC)样本 | |
| | | |
为了开发强大的RNA-SM发现流程,作者团队选择了具有所有三种类型数据的TCGA样品,包括RNA-seq、全外显子组测序(WXS)和高覆盖率全基因组测序(WGS)。作者通过实施18个突变过滤器(其中10个是专门为RNA-seq数据设计的)开发了一个RNA-SM发现方法,这些过滤器显著减少了错误发现的数量(图1A)。通过这种方式,作者团队鉴定了9203个具有足够读长覆盖率的候选RNA-SM,其中,高覆盖率WGS数据验证了7990个(86.8%)(图1B)。 作者团队开发了一种机器学习方法来区分纯RNA突变和DNA和RNA-seq数据中存在的突变。作者使用由来自45个 LUAD 样本的 RNA-SM 组成的训练数据集,作者团队采用了五种基于分类的机器学习方法,并使用受试者工作特征曲线 (ROC) 和精确回忆 (PR) 曲线评估每种方法的性能。为了验证 Stacking 模型的一般适用性,作者团队将其应用于由 20 个 LUSC 和 35 个 HNSCC 样本的 RNA-SM 组成的独立验证数据集。结果显示,堆叠模型的性能最佳,ROC-AUC为0.950,PR-AUC为0.991(图2A-B)。此外,患者RNA-SM检测的中位精密度从0.831提高到0.932,同时灵敏度保持在0.650(图2C)。 图2 使用独立验证数据集评估的IMAPR方法的性能为了确定验证率差异的潜在原因,作者分别比较了WXS和WGS数据验证的RNA-SM。首先,作者的分析表明,WGS和WXS数据在RNA-SM的基因区域和等位基因替换方面提供了一致的验证结果。具体而言,WXS数据验证的大多数RNA-SM都位于外显子和UTR区域,WGS数据验证的大多数RNA-SM也位于外显子和UTR区域(图3A)。此外,WGS验证的RNA-SM和WXS验证的RNA-SM表现出相似的等位基因替换特征(图3B)。接下来,作者进一步研究了DNA-seq覆盖率与验证的RNA-SM数量之间的关系。结果表明,DNA-seq数据中更深的读取深度与更高百分比的验证RNA-SM相关(图3C)。 图3 使用TCGA WGS和WXS数据作为RNA-SM分析的验证参考为了进一步评估作者团队的RNA-SM发现管线的性能,作者团队将其应用于使用TCGA中宫颈鳞状细胞癌(CESC)的独立RNA-seq数据来检测SM。结果显示,作者在297例CESC病例中共检测到29,237个RNA-SM。接下来,作者团队对RNA-SM进行了显著突变基因(SMG)分析,并鉴定了14个突变基因(图4A)。其中,PIK3CA、KMT2C、FBXW7、EP300、KMT2D、PTEN、TP53、SMAD4、KRAS、STK11和FAT1也通过DNA-SM分析发现显著突变。为了进一步表征扩大的SM池,作者团队进行了氨基酸替换分析,以在蛋白质水平上注释突变。RNA-SM分析显示,E542K和E545K是最丰富的PIK3CA突变(图4B)。 作者团队的分析显示,LUSC、BLCA、SKCM和LUAD的突变数量最多,而PCPG、THCA 和 UVM 的突变数量最少。随后,比较 32 种癌症的突变谱显示,最大的差异是 C > T 转换和 C > G 转换(图 5A-B)。值得注意的是,作者团队的分析发现 SKCM 的C > T转换率最高,这与之前将C > T转换与紫外线照射引起的皮肤癌联系起来的发现一致。 作者使用已鉴定的RNA-SMs进行突变特征分析,以预测每种癌症的病因。有趣的是,在大多数类型的癌症中都存在几种常见的内源性突变特征,包括DNA脱氨DNA错配修复和衰老(图6)。此外,作者团队还确定了癌症类型特异性突变特征。例如,吸烟被发现是肺癌的主要原因(LUAD和LUSC)。 图6 使用RNA-SM在32种癌症类型中发现的泛癌突变特征作者团队的研究表明,高覆盖率WGS可以识别由于读取深度或GC含量问题而无法被标准WXS检测到的其他SM。在本文中,作者团队开发了一个基于机器学习的管道,以发现基于RNA-seq数据(指定为RNA-SMs)的SM。随后,作者进行了泛癌分析,以系统地鉴定来自癌症基因组图谱(TCGA)中8000多个肿瘤的RNA-SM。馆长认为,作者团队的公共数据库测序数据(TCGA)+机器学习构建模型+突变特征分析的生信分析方法可复性极高!且不涉及任何复杂的湿实验验证流程!感兴趣的同学敬请留意!此外,如果您有进一步的生信发文需求,无论是研究方向的确定、实验设计的优化,还是生物信息学的深入分析,馆长以及专业的硕博生信团队都将随时为您服务! 馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!