社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

最新出炉!机器学习0实验屡试不爽新套路!码住这篇“XGBoost等5种机器学习算法+体细胞突变+泛癌”!5分+期刊你上你也行!

生信图书馆 • 3 月前 • 122 次点击  

这样的分析套路还真是不多见!机器学习0实验屡试不爽新套路!

天空一声巨响,馆长闪亮登场!嘿嘿,眨眼间一个周末又过去咯,不知道大家的论文进度怎样了呢?要是还没什么思路的话,不妨一起看看馆长的今日份分享!馆长今日分享的机器学习生信不涉及任何湿实验验证!大伙放心食用!各取所需!

来自美国伊利诺伊大学癌症中心的团队,于5月23日在自然杂志旗下期刊《Communications Biology》发表了题为《Pan-cancer discovery of somatic mutations from RNA sequencing data》的文章,馆长觉得这篇文章中的众多生信方法都值得大家拿小本本记下来!那么咱们赶紧分析分析~

1、TCGA公共测序数据+体细胞突变分析+5种机器学习算法构建模型!作者团队先根据机器学习构建出筛选方法,再系统地鉴定来自癌症基因组图谱(TCGA)中8000多个肿瘤的RNA体细胞突变数据,并成功提取出特征性较强的新突变!

2、泛癌+体细胞突变在线图谱的使用!基于32种癌症的体细胞突变图谱的上线,进一步拓展了本文的实际临床价值!也是本文备受审稿人喜爱的重要原因!ps:想了解更多机器学习创新方法的朋友可扫码联系馆长!此外,馆长这里更有专业的硕博团队随时为您排忧解难!!

定制生信分析

云服务器租赁

加好友备注“99”领取试用

题目:在泛癌研究中,从RNA测序数据中发现体细胞突变的标志    
杂志:Communications Biology
影响因子:5.2
发表时间:2024年2月
公众号回复“666”即可领取原文献,文献编号240731
研究背景
DNA测序是目前常用的识别体细胞突变(RNA-SMs)的方法,但RNA测序也可以提供一种替代策略。现有的RNA-SM识别方法存在一些局限性,如没有充分考虑RNA测序数据的特点,易产生较高的假阳性率。因此,作者开发了一个基于机器学习的综合变异分析管道IMAPR,以更准确地从RNA测序数据中发现RNA-SMs。
数据来源
数据类型
数据来源
样本数量
用途
RNA-seq
TCGA
45例肺腺癌(LUAD)、20例肺鳞癌(LUSC)、35例头颈鳞癌(HNSCC)
用于开发IMAPR管道、识别RNA-SMs
RNA-seq
独立Mun数据集
80例患者
用于验证IMAPR管道的泛用性
DNA-seq
独立Mun数据集
同上
用于验证IMAPR管道的性能
RNA-seq
TCGA
32种癌症类型,共297例宫颈鳞癌(CESC)样本
用于泛癌RNA-SM分析
DNA-seq (WXS)
TCGA
同上
用于与CESC RNA-SMs进行比较        
研究思路
主要结果
1、开发用于RNA-SM检测的生物信息学方法
为了开发强大的RNA-SM发现流程,作者团队选择了具有所有三种类型数据的TCGA样品,包括RNA-seq、全外显子组测序(WXS)和高覆盖率全基因组测序(WGS)。作者通过实施18个突变过滤器(其中10个是专门为RNA-seq数据设计的)开发了一个RNA-SM发现方法,这些过滤器显著减少了错误发现的数量(图1A)。通过这种方式,作者团队鉴定了9203个具有足够读长覆盖率的候选RNA-SM,其中,高覆盖率WGS数据验证了7990个(86.8%)(图1B)。    
图1 RNA-SM发现管道中的突变过滤器摘要
2、通过机器学习方法构建模型
作者团队开发了一种机器学习方法来区分纯RNA突变和DNA和RNA-seq数据中存在的突变。作者使用由来自45个 LUAD 样本的 RNA-SM 组成的训练数据集,作者团队采用了五种基于分类的机器学习方法,并使用受试者工作特征曲线 (ROC) 和精确回忆 (PR) 曲线评估每种方法的性能。为了验证 Stacking 模型的一般适用性,作者团队将其应用于由 20 个 LUSC 和 35 个 HNSCC 样本的 RNA-SM 组成的独立验证数据集。结果显示,堆叠模型的性能最佳,ROC-AUC为0.950,PR-AUC为0.991(图2A-B)。此外,患者RNA-SM检测的中位精密度从0.831提高到0.932,同时灵敏度保持在0.650(图2C)。    
图2 使用独立验证数据集评估的IMAPR方法的性能
3、通过高覆盖率WGS数据验证RNA-SM
为了确定验证率差异的潜在原因,作者分别比较了WXS和WGS数据验证的RNA-SM。首先,作者的分析表明,WGS和WXS数据在RNA-SM的基因区域和等位基因替换方面提供了一致的验证结果。具体而言,WXS数据验证的大多数RNA-SM都位于外显子和UTR区域,WGS数据验证的大多数RNA-SM也位于外显子和UTR区域(图3A)。此外,WGS验证的RNA-SM和WXS验证的RNA-SM表现出相似的等位基因替换特征(图3B)。接下来,作者进一步研究了DNA-seq覆盖率与验证的RNA-SM数量之间的关系。结果表明,DNA-seq数据中更深的读取深度与更高百分比的验证RNA-SM相关(图3C)。    
图3 使用TCGA WGS和WXS数据作为RNA-SM分析的验证参考
4、宫颈癌中RNA-SMs的独立验证
为了进一步评估作者团队的RNA-SM发现管线的性能,作者团队将其应用于使用TCGA中宫颈鳞状细胞癌(CESC)的独立RNA-seq数据来检测SM。结果显示,作者在297例CESC病例中共检测到29,237个RNA-SM接下来,作者团队对RNA-SM进行了显著突变基因(SMG)分析,并鉴定了14个突变基因(图4A)。其中,PIK3CA、KMT2C、FBXW7、EP300、KMT2D、PTEN、TP53、SMAD4、KRAS、STK11和FAT1也通过DNA-SM分析发现显著突变。为了进一步表征扩大的SM池,作者团队进行了氨基酸替换分析,以在蛋白质水平上注释突变。RNA-SM分析显示,E542K和E545K是最丰富的PIK3CA突变(图4B)。    
图4 TCGA宫颈癌的RNA-SM谱
5、TCGA 队列中的泛癌 RNA-SM 谱
作者团队的分析显示,LUSC、BLCA、SKCM和LUAD的突变数量最多,而PCPG、THCA 和 UVM 的突变数量最少。随后,比较 32 种癌症的突变谱显示,最大的差异是 C > T 转换和 C > G 转换(图 5A-B)。值得注意的是,作者团队的分析发现 SKCM 的C > T转换率最高,这与之前将C > T转换与紫外线照射引起的皮肤癌联系起来的发现一致。    
图5 TCGA中的泛癌RNA-SM图谱
6、使用RNA-SM进行突变特征分析
作者使用已鉴定的RNA-SMs进行突变特征分析,以预测每种癌症的病因。有趣的是,在大多数类型的癌症中都存在几种常见的内源性突变特征,包括DNA脱氨DNA错配修复和衰老(图6)。此外,作者团队还确定了癌症类型特异性突变特征。例如,吸烟被发现是肺癌的主要原因(LUAD和LUSC)。    
图6 使用RNA-SM在32种癌症类型中发现的泛癌突变特征
文章小结
作者团队的研究表明,高覆盖率WGS可以识别由于读取深度或GC含量问题而无法被标准WXS检测到的其他SM。在本文中,作者团队开发了一个基于机器学习的管道,以发现基于RNA-seq数据(指定为RNA-SMs)的SM。随后,作者进行了泛癌分析,以系统地鉴定来自癌症基因组图谱(TCGA)中8000多个肿瘤的RNA-SM。馆长认为,作者团队的公共数据库测序数据(TCGA)+机器学习构建模型+突变特征分析的生信分析方法可复性极高!且不涉及任何复杂的湿实验验证流程!感兴趣的同学敬请留意!此外,如果您有进一步的生信发文需求,无论是研究方向的确定、实验设计的优化,还是生物信息学的深入分析,馆长以及专业的硕博生信团队都将随时为您服务!    

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

服务器租赁

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.2024孟德尔如何再次破局?剑桥顶级团队“非线性MR+线性MR+全基因组评分”思路了解一下!0实验带你躺上5分+!手慢无!

2.发文量暴涨五倍!高分“水刊”?那是万万不可能滴!复旦联合上交大:单细胞多组学+机器学习,一区14+轻松拿捏!

3.理论实践相结合!高分思路不可错过!北京华大基因研究院团队:新技术(单细胞线粒体测序)+体内外验证,知行合一轻松拿下1区8分

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172797
 
122 次点击