天呐！这还卷什么实验！南京中医药大学团队非肿瘤研究新作：机器学习+组学整合分析，0实验直冲1区8分+！

哈喽，小伙伴们！最近都是接二连三的台风天气，实属可怕，我们要尊重大自然，敬畏大自然，珍惜每一天哦！

生信塔最近在后台看到小伙伴的留言，不少小伙伴们想要了解更多的纯生信文章，省时省力还发SCI，这不生信塔立刻为大家带来一篇转录组学分析+多种机器学习方法的优质文章哦。小伙伴们跟着生信塔一起，在文献海洋里遨游吧！希望大家学有所获！

生信塔为大家带来的就是发表在《Journal of Big Data》（IF 8.6）上的“Integration of transcriptomic analysis and multiple machine learning approaches identifies NAFLD progression-specific hub genes to reveal distinct genomic patterns and actionable targets”。这篇文章结合转录组分析和多种机器学习方法：加权基因共表达网络分析（WGCNA）、差异表达基因（DEGs）筛选、机器学习算法（如随机森林（RF）、支持向量机（SVM）和Lasso回归），巧妙地运用了九个不同来源的数据集，将来自GEO数据库的四个常规Bulk转录组数据集进行分阶段验证，具体而言就是：其中一个数据集被选定为训练集，用于初步分析并构建假设或模型，其余三个数据集则分别扮演外部验证集的角色，独立进行分析。

PS：生信分析通常成本较低，且分析数据速度快，省时又省事，给不少科研人员节约了时间和经费，对苦苦做实验的小伙伴来说简直不要太友好啦！如果你生信分析感兴趣，且不想进行大量实验性研究还想发高分论文，欢迎随时联系生信塔，生信塔不仅可以帮你节省资源，还能挖掘出创新性的科学问题，生信塔将提供专业的服务和支持，助你顺利完成科研~

定制生信分析

云服务器租赁

加微信备注99领取使用

题目：整合转录组学分析和多种机器学习方法识别NAFLD进展特异性中心基因，以揭示不同的基因组模式和可操作的目标

杂志：Journal of Big Data

影响因子：IF=8.6

发表时间：2024年3月

研究背景

非酒精性脂肪肝病（NAFLD）的发病机制复杂，可能会导致肝硬化和肝细胞癌（HCC）。近期，研究者发现，通过分析患者的基因表达模式，可以识别出与NAFLD进展相关的特定基因，这对于理解疾病的分子机制、预测疾病进展以及发现潜在的治疗靶点具有重要意义。

研究思路

从GEO数据库中收集了健康肝脏、NAFLD和HCC样本的转录组分析数据；接着使用WGCNA和DEGs分析，识别与NAFLD进展相关的基因模块和特异性基因；以及基因集富集分析（GSEA）和基因本体（GO）分析，探索这些基因所涉及的生物学过程和分子功能；再结合RF、SVM和Lasso回归等多种机器学习方法，筛选出最优的候选基因，并构建了一个风险分层基因集，用于量化NAFLD患者的疾病风险。

主要结果

1、NAFLD进展特异性途径和基因的鉴定

本研究利用R包“limma”识别NASH中显著上调的基因，通过“GOSemSim”和“ggtree”分析发现，ECM组织和细胞周期过程是NAFLD进展的主要原因。结合WGCNA和limma筛选出的182个NAFLD进展特异性基因，构建PPI网络显示胶原家族成员为核心，进一步通过CMap预测HDAC抑制剂等化合物为潜在治疗靶点，特别是HDACi类药物可能适用于晚期NAFLD患者。

图1 NAFLD进展特异性途径和基因的鉴定

2、NAFL的不同风险亚组具有不同的炎症和纤维化模式

通过GO分析，182个NAFLD进展基因主要富集于ECM组织、血管发育等5个关键生物学过程，验证了这些基因在NAFLD病理发展中的代表性。

基于这些基因的表达谱，NMF算法将NAFL患者分为两个亚群，其中C2亚群显示出较低的炎症反应、ECM组织和细胞粘附评分，而NAFL-C2组在炎症因子表达和纤维相关细胞群丰度上也呈现独特模式，提示其可能为NAFLD进展中的一个特定阶段。

图2 NAFL的不同风险亚组具有不同的炎症和纤维化模式

3、风险分层判别评分的建立与验证

采用多种机器学习方法，包括RFE、RF、SVM和Lasso logistic回归，从182个NAFLD进展基因中筛选出4个关键生物标志物（DTNA、COL4A2、UBD、COL1A2），其中COL1A2的预测能力最强。通过PCA分析和ROC曲线验证，这些基因在区分NAFL与NASH方面表现出色，并在两个外部数据集GSE163211和GSE135251中进一步确认了它们在纤维化进程中的诊断价值，特别是COL1A2和COL4A2的组合能有效识别晚期纤维化NASH患者。

图3 NAFLD风险分层的鉴别基因标记的建立和验证

4、风险分层基因标记与恶性进展显著相关

在多个数据集中（GSE164760、GTEx和TCGA-HCC，以及scRNA-seq数据集GSE125449、GSE146409和GSE166635），筛选出的四个鉴别基因（DTNA、COL4A2、UBD、COL1A2）在NAFLD向HCC的恶性进展中均显著上调，特别是COL1A2在成纤维细胞中特异性高表达，提示这些基因不仅与NAFLD的风险分层相关，还可能在HCC的肿瘤微环境及纤维化进程中发挥重要作用。

图4 风险分层基因标记与恶性进展显著相关

5、NAFLD和HCC的突变模式和CTNNB1/COL1A2轴分析

利用TCGA-HCC的WES数据和NMF算法，揭示了HCC的突变模式，发现NAFLD-HCC患者具有COL1A2高表达的特征，且与CTNNB1基因突变呈互斥关系。

图5 CTNNB1/COL1A2轴与NAFLD-HCC进展期间纤维化严重程度相关

6、不同的CTNNB1/COL1A2组之间观察到不同的免疫和基质模式

通过TIMER、Cibersort等多种方法，发现CTNNB1-WT/COL1A2高表达的HCC样本中浸润性免疫细胞和基质细胞显著富集，尤其是CAFs的浸润评分显著升高，表明其纤维化程度更严重。此外，这些样本显示出更高的免疫浸润和肿瘤纯度负相关，同时炎症反应活性与免疫评分显著正相关，揭示了不同CTNNB1/COL1A2组在免疫原性和免疫治疗反应方面的异质性。

图6 不同的CTNNB1/COL1A2组之间观察到不同的免疫和基质模式

7、COL1A2在泛癌中与EMT和血管生成显著相关

利用ssGSEA算法，分析了COL1A2与10种癌症特征的关系，发现COL1A2与EMT和血管生成在泛癌中具有显著的正相关性，这表明COL1A2在多种癌症的恶性进展中，特别是通过促进EMT和血管生成，可能扮演着关键角色。

图7 COL1A2在泛癌中与EMT和血管生成显著相关

文章小结

这篇文章是否让你掌握了纯生信发文的精髓，领悟到了发表高质量论文的秘诀？没错，结合转录组分析 + 多种机器学习简直就是王炸思路，套路满满，学会这个套路，再也不用担心没有好文章啦~如果你不想埋头苦干实验还发不出好文章，想要省钱省事省力出高产，联系生信塔准没错，生信塔不仅可以设计新颖独特的课题，还可以挖掘生信思路套路，质量有保证！别犹豫，赶紧扫码联系生信塔，生信塔全程为你提供专业的服务和支持~

生信塔有话说

生信塔公众号持续为大家带来最新生信思路，更多创新性分析思路请点击往期推荐，快来查看吧！想复现这种思路或者定制更多创新性思路欢迎直接call生信塔，我们团队竭诚为您的科研助力！

文献思路复现

定制生信分析

服务器租赁

十投九中+纯生信友好=神刊！复旦肿瘤医院李大卫团队2区6分模板文，单细胞数据挖掘+乳酸化修饰，科研人错过血亏！

11种机器学习“飞”上1区Top，诺奖热点不容错过！苏州大学李艳红团队，预后模型这波操作太燃了！

参考资料：

[1] Sun, J., Shi, R., Wu, Y. et al. Integration of transcriptomic analysis and multiple machine learning approaches identifies NAFLD progression-specific hub genes to reveal distinct genomic patterns and actionable targets. J Big Data 11, 40 (2024). https://doi.org/10.1186/s40537-024-00899-5