Py学习  »  机器学习算法

“机器学习”这个夏天还要HOT!lncRNA相关预后模型构建,发SCI少走弯路,还得看这篇!

生信塔 • 11 月前 • 346 次点击  

24年最新的期刊影响因子已经出炉啦各位小伙伴的目标期刊有什么变化呢?有心仪的期刊升分了可要把握住机会赶紧冲分,小塔这里可有着不少的idea帮大家拿到属于自己的一作SCI哦~~~

今天给大家介绍的这篇文章是肿瘤方向的生信分析,虽然有很多小伙伴不研究肿瘤相关疾病,但是肿瘤研究有以下4大优势,能够引领热点趋势,对其它疾病的研究选题还是很有参考意义的。

1,临床组织样本易获得,特别是各种手术样本(比动物造模的临床意义和成本优势);

2,有天生的优质细胞模型,细胞好养,种类齐,便于开展分子机制实验(比原代细胞的优势);

3,肿瘤公共数据资源丰富,为数据挖掘/比对分析提供极大便利(比自测实验的成本优势);

4,临床研究的紧迫性强,与各种前沿研究领域和发文热点更是百搭(思路优势)!

因此,即便不研究肿瘤疾病,很多新的idea也可以参考学习!总有尚未被发掘的方向,更何况还有小塔和你并肩作战呀~~

今天小塔给大家带来一篇发表在Journal of Tranlational Medicine杂志上的文章,大家可别急着划走,它可是多家医院科室联合发表的一篇silico分析文章针对三阴性乳腺癌TNBC中癌症干细胞相关的lncRNAs这一特殊对象,搭上机器学习的热点快车构建预后模型,绝对值得大家学而仿之!话不多讲,赶紧来先睹为快吧~~~(肯定有小伙伴不是研究TNBC疾病的,不过没关系,机器学习方法用到哪个疾病都可以出高分,小伙伴们可以试试呀)PS:如果你也有想用生信文章丰富自己的履历但不知道如何入手,快来扫码联系小吧!小塔 这里有无数高分文章套路可复现!


定制生信分析

云服务器租赁

加微信备注99领取使用

   

题目:对三阴性乳腺癌中干细胞相关lncRNAs的综合表征发现了与治疗结果、免疫景观分析和治疗指导相关的新预后特征:体内实验的silico分析

杂志:Journal of Translational Medicine

影响因子:IF=6.1

发表时间:2024年5月

公众号回复“666”领取原文PDF,文献编号:240802

研究背景

癌症干细胞(CSCs)和长链非编码RNA(lncRNAs)在肿瘤细胞的生长、迁移、复发和耐药中起着至关重要的作用,特别是在治疗选择有限、预后不佳和死亡率高的三阴性乳腺癌(TNBC)中。然而,stemness-related lncRNAs (SRlncRNAs)在TNBC中的作用尚不清楚。    

研究思路

利用TCGA数据库中的RNA测序数据和相应的临床信息,并对在线数据库中的TNBC mRNAsi进行加权基因共表达网络分析(WGCNA),鉴定出干性相关基因(SRGs)和干性相关lncRNA(SRlncRNAs。采用基于SRlncRNAs的单变量Cox和LASSO-Cox分析建立预后模型。采用Kaplan-Meier分析、ROC曲线和ROC-AUC对模型的性能进行评价。随后进行了基因集富集分析(GSEA)、免疫浸润分析和化疗药物敏感性分析,通过体外诱导三阴性乳腺癌细胞的干性表达验证了该模型的预测能力。此外还深入研究了与TNBC患者预后差异相关的潜在信号通路和免疫状态。(ps:肯定有小伙伴不是研究TNBC疾病的,不过没关系,机器学习方法用到哪个疾病都可以出高分,小伙伴们可以试试呀)    

图1  实验流程设计

研究结果

1. TNBC的mRNAsi与临床特征

从PanCanStemness获得138名TNBC患者的mRNAsi数据。对肿瘤和非肿瘤样本mRNAsi指数比较分析显示,肿瘤组织中的mRNAsi水平显著升高(图2A)。根据年龄、性别和肿瘤分期进行分类,除了T分类和分期有统计学意义的相关性(图2C, F),mRNAsi与年龄(图2B)、N分类(图2E)或M分类 (图2E)之间没有明显的相关性。KM分析发现高mRNAsi指数与TNBC患者较差的总生存期(OS)相关(图2F)。    

 

图2  TNBC患者mRNAsi与临床特征的关系

2. SRGs的鉴定

从TCGA数据库获取RNA测序数据,筛选TNBC组织和非肿瘤组织的差异表达基因DEGs (图3A)。采用软阈值的WGCNA建立无标度网络,允许mRNAsi与TCGA筛选出的DEGs进行相关性分析(图3B)。图3C说明了用于识别与mRNAsi指数密切相关的模块的统计方法。WGCNA结果描述各模块TNBC基因表达与mRNAsi指数之间的相关水平,选择了十个模块作为后续研究的重点(图3D-M)。最后在这些模块中识别出119个SRGs。    

 

图3  TNBC中DEGs及与干细胞相关的关键模块的鉴定

3. 预测预后的SRlncRNAs的鉴定

对lncRNA与119个SRGs间的Pearson相关性分析,得到了1982个SRlncRNAs。建立共表达网络说明了119个SRGs和1982个SRlncRNAs间的关系(图4A)。差异分析,获得了922个差异表达的SRlncRNAs,被认为是潜在的预后SRlncRNAs。    

4. SRlncRNAs标记特征的构建与验证

单因素Cox回归证明23个SRlncRNAs与总生存(OS)相关(图4C, D),与TNBC患者的不良预后相关。采用lasso回归在1000次交叉验证中,最终识别出6个SRlncRNAs并根据AIC值建立预后模型。图4E、F分别给出cvfit和lambda曲线。随后得出计算TNBC患者的风险评分的公式。

TNBC队列中每个个体的风险评分使用指定公式计算,分为高风险和低风险两组。所有患者的生存结局、风险状况及lncRNA表达水平如图5A-C所示,TNBC患者在高危组的生存时间缩短(图5D),表明在低危组的预后更有利。ROC曲线计算风险评分(图5E)。采用PCA来区分两个亚组之间的差异(图5f-l),低危组和高危组在不同方向上表现出更明显的差异(图5F-H)。风险模型有效地将TNBC患者分为两组,显示了其干细胞状态的完全分离。

图4  TNBC中干细胞相关lncRNA特征的鉴定    

图5   预测结果的风险模型

5. TNBC患者nomogram建构与验证

使用AUC评估风险评分在3年、5年和8年对TNBC患者的预测特异性和敏感性,结果AUC值均高于其他临床病理因素(图6A-C)。单因素cox回归分析显示,病理阶段、M、N和风险评分与总生存期(OS)有显著相关性(图6D)。多因素cox回归分析显示,N和风险评分独立预测TNBC患者的OS(图6E)。对诊断为TNBC的患者在临床诊断后1、3和5年的预后进行评估(图7A)并校准(图7B)。    

图6   新型SRlncRNAs特征的预后价值

   

图7   TNBC中nomogram建构与验证

6. 基因集富集分析(GSEA)

GSEA结果显示,在高危组中共有158条信号通路上调。肌醇磷酸盐代谢、赖氨酸降解、基础转录因子等6条信号通路显著富集(图8)。在低风险组中只有20条信号通路上调。    

图8   基于预后模型的高、低危组基因集富集分析(GSEA)

7. TNBC患者免疫细胞浸润景观

作者揭示TCGA-TNBC患者肿瘤组织中22种不同免疫细胞类型分布的实质性变化(图9A)。此外,活化的自然杀伤细胞(NK)与调节性T细胞(Tregs)、记忆性B细胞、嗜酸性粒细胞、CD8+T细胞和中性粒细胞呈正相关(图9B)。通过比较不同风险组的免疫细胞比例,观察到低风险组浆细胞水平升高(图9C)。接下来评估上述组之间与免疫功能相关的13种途径富集水平的差异,主要的焦点是细胞溶解活性(图10A)。两组间11个免疫检查点基因的表达存在显著差异(图10B)。    

 

图9   CIBERSORT计算TNBC患者免疫细胞浸润景观分析

   

图10   基于ssGSEA评分的TNBC患者风险评分的免疫相关性分析

8. 常用化疗药物的敏感性评价

通过分析顺铂、多西他赛、紫杉醇和埃洛替尼这些广泛认可的抗癌药物的风险评分和疗效之间的相关性,观察到低风险组的个体对顺铂表现出更高的敏感性(图11)。

图11   两组对四种常用抗癌药物的化疗反应

文章小结

这篇研究的研究内容并不复杂,基因表达分析、机器学习建立预后模型、ROC评价模型性能、免疫浸润+药物敏感性,文章后面可还有湿实验验证哦,可真是标准的肿瘤+机器学习的好文模板呢无论是刚学习生信分析的小白,还是有相当基础且跃跃欲试的毕业生,看了今天的文献,小塔保证收获满满哟 如果你有什么好的想法快来联系小呦!让专业的小塔为你的SCI保驾护航    

小塔有话说


生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call小塔,我们团队竭诚为您的科研助力!

文献思路复现

定制生信分析

服务器租赁


 往期 · 推荐 

【倒计时提醒】抓住618大促尾巴:首月5折享16T空间,千元礼包等你领!

超赞!39分+!孟德尔随机化再次令人瞩目,UKB数据库+双疾病联合GWAS!配置超豪华,赶紧来学习吧!

这个思路藏不住了,再不学习就晚啦!天津中医药大学王耀刚团队1区13+:环境因素+孟德尔随机化研究,快学起来!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172886
 
346 次点击