哈喽,小伙伴们!最近都是接二连三的台风天气,实属可怕,我们要尊重大自然,敬畏大自然,珍惜每一天哦!生信塔最近在后台看到小伙伴的留言,不少小伙伴们想要了解更多的纯生信文章,省时省力还发SCI,这不生信塔立刻为大家带来一篇转录组学分析+多种机器学习方法的优质文章哦。小伙伴们跟着生信塔一起,在文献海洋里遨游吧!希望大家学有所获!生信塔为大家带来的就是发表在《Journal of Big Data》(IF 8.6)上的“Integration of transcriptomic analysis and multiple machine learning approaches identifies NAFLD progression-specific hub genes to reveal distinct genomic patterns and actionable targets”。这篇文章结合转录组分析和多种机器学习方法:加权基因共表达网络分析(WGCNA)、差异表达基因(DEGs)筛选、机器学习算法(如随机森林(RF)、支持向量机(SVM)和Lasso回归),巧妙地运用了九个不同来源的数据集,将来自GEO数据库的四个常规Bulk转录组数据集进行分阶段验证,具体而言就是:其中一个数据集被选定为训练集,用于初步分析并构建假设或模型,其余三个数据集则分别扮演外部验证集的角色,独立进行分析。PS:生信分析通常成本较低,且分析数据速度快,省时又省事,给不少科研人员节约了时间和经费,对苦苦做实验的小伙伴来说简直不要太友好啦!如果你生信分析感兴趣,且不想进行大量实验性研究还想发高分论文,欢迎随时联系生信塔,生信塔不仅可以帮你节省资源,还能挖掘出创新性的科学问题,生信塔将提供专业的服务和支持,助你顺利完成科研~
定制生信分析
云服务器租赁
加微信备注99领取使用
题目:整合转录组学分析和多种机器学习方法识别NAFLD进展特异性中心基因,以揭示不同的基因组模式和可操作的目标杂志:Journal of Big Data影响因子:IF=8.6发表时间:2024年3月研究背景非酒精性脂肪肝病(NAFLD)的发病机制复杂,可能会导致肝硬化和肝细胞癌(HCC)。近期,研究者发现,通过分析患者的基因表达模式,可以识别出与NAFLD进展相关的特定基因,这对于理解疾病的分子机制、预测疾病进展以及发现潜在的治疗靶点具有重要意义。研究思路从GEO数据库中收集了健康肝脏、NAFLD和HCC样本的转录组分析数据;接着使用WGCNA和DEGs分析,识别与NAFLD进展相关的基因模块和特异性基因;以及基因集富集分析(GSEA)和基因本体(GO)分析,探索这些基因所涉及的生物学过程和分子功能;再结合RF、SVM和Lasso回归等多种机器学习方法,筛选出最优的候选基因,并构建了一个风险分层基因集,用于量化NAFLD患者的疾病风险。主要结果1、NAFLD进展特异性途径和基因的鉴定本研究利用R包“limma”识别NASH中显著上调的基因,通过“GOSemSim”和“ggtree”分析发现,ECM组织和细胞周期过程是NAFLD进展的主要原因。结合WGCNA和limma筛选出的182个NAFLD进展特异性基因,构建PPI网络显示胶原家族成员为核心,进一步通过CMap预测HDAC抑制剂等化合物为潜在治疗靶点,特别是HDACi类药物可能适用于晚期NAFLD患者。图1 NAFLD进展特异性途径和基因的鉴定2、NAFL的不同风险亚组具有不同的炎症和纤维化模式通过GO分析,182个NAFLD进展基因主要富集于ECM组织、血管发育等5个关键生物学过程,验证了这些基因在NAFLD病理发展中的代表性。基于这些基因的表达谱,NMF算法将NAFL患者分为两个亚群,其中C2亚群显示出较低的炎症反应、ECM组织和细胞粘附评分,而NAFL-C2组在炎症因子表达和纤维相关细胞群丰度上也呈现独特模式,提示其可能为NAFLD进展中的一个特定阶段。图2 NAFL的不同风险亚组具有不同的炎症和纤维化模式3、风险分层判别评分的建立与验证采用多种机器学习方法,包括RFE、RF、SVM和Lasso logistic回归,从182个NAFLD进展基因中筛选出4个关键生物标志物(DTNA、COL4A2、UBD、COL1A2),其中COL1A2的预测能力最强。通过PCA分析和ROC曲线验证,这些基因在区分NAFL与NASH方面表现出色,并在两个外部数据集GSE163211和GSE135251中进一步确认了它们在纤维化进程中的诊断价值,特别是COL1A2和COL4A2的组合能有效识别晚期纤维化NASH患者。图3 NAFLD风险分层的鉴别基因标记的建立和验证4、风险分层基因标记与恶性进展显著相关在多个数据集中(GSE164760、GTEx和TCGA-HCC,以及scRNA-seq数据集GSE125449、GSE146409和GSE166635),筛选出的四个鉴别基因(DTNA、COL4A2、UBD、COL1A2)在NAFLD向HCC的恶性进展中均显著上调,特别是COL1A2在成纤维细胞中特异性高表达,提示这些基因不仅与NAFLD的风险分层相关,还可能在HCC的肿瘤微环境及纤维化进程中发挥重要作用。图4 风险分层基因标记与恶性进展显著相关5、NAFLD和HCC的突变模式和CTNNB1/COL1A2轴分析利用TCGA-HCC的WES数据和NMF算法,揭示了HCC的突变模式,发现NAFLD-HCC患者具有COL1A2高表达的特征,且与CTNNB1基因突变呈互斥关系。图5 CTNNB1/COL1A2轴与NAFLD-HCC进展期间纤维化严重程度相关6、不同的CTNNB1/COL1A2组之间观察到不同的免疫和基质模式通过TIMER、Cibersort等多种方法,发现CTNNB1-WT/COL1A2高表达的HCC样本中浸润性免疫细胞和基质细胞显著富集,尤其是CAFs的浸润评分显著升高,表明其纤维化程度更严重。此外,这些样本显示出更高的免疫浸润和肿瘤纯度负相关,同时炎症反应活性与免疫评分显著正相关,揭示了不同CTNNB1/COL1A2组在免疫原性和免疫治疗反应方面的异质性。图6 不同的CTNNB1/COL1A2组之间观察到不同的免疫和基质模式7、COL1A2在泛癌中与EMT和血管生成显著相关利用ssGSEA算法,分析了COL1A2与10种癌症特征的关系,发现COL1A2与EMT和血管生成在泛癌中具有显著的正相关性,这表明COL1A2在多种癌症的恶性进展中,特别是通过促进EMT和血管生成,可能扮演着关键角色。图7 COL1A2在泛癌中与EMT和血管生成显著相关文章小结这篇文章是否让你掌握了纯生信发文的精髓,领悟到了发表高质量论文的秘诀?没错,结合转录组分析 + 多种机器学习简直就是王炸思路,套路满满,学会这个套路,再也不用担心没有好文章啦~如果你不想埋头苦干实验还发不出好文章,想要省钱省事省力出高产,联系生信塔准没错,生信塔不仅可以设计新颖独特的课题,还可以挖掘生信思路套路,质量有保证!别犹豫,赶紧扫码联系生信塔,生信塔全程为你提供专业的服务和支持~
参考资料:[1] Sun, J., Shi, R., Wu, Y. et al. Integration of transcriptomic analysis and multiple machine learning approaches identifies NAFLD progression-specific hub genes to reveal distinct genomic patterns and actionable targets. J Big Data11, 40 (2024). https://doi.org/10.1186/s40537-024-00899-5