生物因子预测还能这样做？代谢组学分析+机器学习+模型建立三大巨头强强联合！清华大学团队这篇14+Nature 子刊让你醍醐灌顶！

宝子们，馆长又来啦！近来外面也太热了吧，热的要超过馆长的体表温度噜，化了化了！所以，馆长决定时刻在工位舒服地吹着20度的空调给大家找文献噜！不用担心，馆长会在世界的一角帮助宝宝们寻找灵感，和宝宝们共同学习哦！

今天馆长给大家带来的这篇是2024年2月发表在Nature Communications上的一篇文章！这本杂志相信很多小伙伴们都有所耳闻，让我们一起来看看高质量文章的思路是怎样的吧！这篇文章将代谢组学和机器学习结合，并建立胃癌（GC）诊断模型，其结果揭示了GC的代谢景观，并确定了两种不同的生物标志物组合，分别能够进行早期检测和预后预测，从而促进GC的精准医疗。

1.该研究采用大规模、多中心临床队列进行靶向代谢组学分析，并确定了具有潜在诊断和预后价值的循环代谢物。

2.本研究利用机器学习算法分析复杂的代谢组学数据，并进一步开发了两种模型，并且具有非常优异的性能，能够促进GC的早期检测和精准医疗。PS：如果你也有想利用生信方法发表高分文章的想法，但不知道如何入手，快来扫码联系馆长吧！馆长这里有无数高分文章套路可复现！

定制生信分析

云服务器租赁

加好友备注“66”领取试用

题目：用于胃癌诊断和预后的代谢组学机器学习预测因子

杂志：Nature Communications

影响因子：IF=14.7

发表时间：2024年2月

公众号回复“原文”二字可以领取本文献，文献编号240714

研究背景

胃癌（GC）是全球癌症相关死亡率的沉重负担，迫切需要制定早期检测策略和精确术后干预措施。然而，用于早期诊断和患者风险分层的非侵入性生物标志物的鉴定仍未得到充分探索。尽管代谢组学能够测量临床样本中存在的数百种代谢物，但复杂的数据处理和解释仍然是一个挑战。机器学习是一种广泛使用的人工智能（AI）方法，可自动分析生物医学科学许多领域的复杂数据，并且其具有独特的优势，特别是在解释组学数据、开发预测模型、识别生物标志物和对患者进行精准医疗分层方面。然而，机器学习在分析 GC 代谢组学数据和开发潜在生物标志物方面的应用尚未得到充分探索，因此应用机器学习和代谢组学结合以实现GC的早期检测和精准医疗具有重要研究意义。

研究思路

首先，基于液相色谱-质谱（LC-MS）的靶向代谢组学分析702名来自多中心 GC 患者和非GC对照（NGC）的血浆样本，以阐明 GC 代谢重编程。然后，使用代谢组学数据通过机器学习开发诊断模型，并在外部测试集（测试集1和测试集2）中得到进一步验证。此外，作者建立机器学习衍生预后模型，验证了其在利用临床参数的情况下表现出优于传统模型的性能，同时可以有效地将患者分层为不同的风险组，以指导精确干预。最终的研究结果揭示了GC 的代谢景观，并确定了两种不同的生物标志物组合，分别能够进行早期检测和预后预测，从而促进 GC 的精准医疗。

研究结果

1.数据来源和研究设计

本研究共纳入了702例患者的血浆样本，其中包括 389 名 GC 患者和 313 名 NGC。利用基于LC-MS的靶向液体代谢组学方法获得血浆样品的代谢组学谱。通过比较队列1中 GC和 NGC的代谢情况，并使用机器学习算法研究代谢特征与临床表型之间的关联，开发GC诊断模型，并评估其性能。应用外部测试集 2（队列 2）来验证模型的稳健性。队列3用于构建预后模型。然后将模型性能在临床适应症方面进行测试，评估模型的风险分层能力（图1）。

图1：研究示意图

2.代谢组学分析患者血浆成分

为了表征 GC 的血浆代谢重编程，对 GC 患者与 NGC 进行了代谢组学分析。主成分分析（PCA）将 GC 与 NGC 样品区分开来，表明GC代谢组发生了重塑（图2 a）。通过检测血浆代谢物得到其火山图，发现 GC 中共有45中代谢物存在统计学差异（图2 b）。根据代谢变化的相似性，使用差异代谢物对 GC 进展过程中的代谢轨迹进行 Mfuzz 聚类，这些失调的代谢物随着疾病的进展而显示出 3 个截然不同的趋势（图2 c）。此外，对这些差异代谢物的 KEGG 通路富集分析揭示了一系列紊乱的代谢通路（图 2 d）。该研究结果描述了血浆代谢物在 GC 检测和预测中的代谢脆弱性，并奠定了潜在应用的基础。

图2：与非 GC 对照组相比，GC 患者的重编程血浆代谢情况

3.机器学习和代谢组学结合开发模型诊断癌症

然后作者基于以上获得的重编程的代谢特征来开发创新的癌症诊断方法，并利用机器学习开发一个预测临床状态的模型。首先通过使用最小绝对收缩和选择算子（LASSO）回归算法，选择了10种必需代谢物来区分 GC 和 NGC，并利用随机森林算法进行特征选择和模型训练（图3 a）。然后作者训练了一个具有10个基本特征的随机森林模型，并在测试集1中验证了该模型，得出了受试者工作特征 ROC 曲线（图3 b）。通过统计每种代谢物对这种10代谢物诊断模型（10-DM 模型）的贡献，发现琥珀酸、尿苷和乳酸是三种最重要的贡献代谢物（图3 c）。为了直观地展示模型的性能，作者又生成了将每个参与者的预测值与其实际疾病状态（NGC/GC）进行比较的图（图3 d-g），证实了模型的有效性。

图3：基于血浆代谢组的机器学习预测模型，用于GC诊断

4.预后模型在预测GC患者结局方面优于临床参数

为了评估 10-DM 模型是否在诊断方面表现出进步，作者将 10-DM 模型的预测准确性与 3 种现有临床肿瘤生物标志物 CA19-9、CA72-4 和 CEA（统称为 3-生物标志物组合）的预测准确性进行了基准测试，比较其诊断性能（图4 a、b），结果证实了其诊断性能的优异性。由于精确的预后可以实现精确干预并有利于患者的临床治疗结果，作者还尝试开发一种机器学习衍生的预后模型28-PM，而考虑到临床参数对预后性能的影响，作者将临床特征组合纳入 28-PM 模型，以评估这是否会增强 28-PM 模型的预测能力验证该预后模型的性能（图4 c、d），其结果表明临床参数的增加几乎没有增强 28-PM 模型的预后能力。之后，作者评估了测试集中每个患者的 28-PM 模型的预测性能（图4 e-g），表明 28-PM 模型成功识别了需要精细治疗方案的患者。最后作者进行多变量 Cox 回归分析（表1），其结果证明了28-PM 模型是一个独立的预后因素。

图4：预后模型在预测GC患者的结局方面优于临床参数

表1：队列3 GC患者预后的多变量COX回归

文章小结

在这项研究中，作者采用多中心临床队列来研究 GC 患者和 NGC 对照之间血浆中的代谢改变，并确定具有潜在诊断和预后价值的循环代谢物。具体而言，利用机器学习算法分析代谢组学数据，进一步开发了两个生物标志物组合，称为 10-DM 模型和 28-PM 模型，与现有的 GC 检测和预后预测临床方法相比，具有更高的准确性。总的来说，该研究证明了应用基于机器学习的代谢组学在促进 GC 的早期检测和精准医疗方面的独特优势，从而提供了未来的临床转化潜力。读完这篇文献，宝子们有没有一些新灵感？想不想进一步了解一下呢？来找馆长吧，馆长随时都在哦！

馆长有话说

馆长会持续为大家带来最新生信思路，也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务，对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦！

生信分析

方案设计

服务器租赁

扫码咨询馆长

孟德尔随机化

生信友好期刊

单细胞测序

非肿瘤生信

2. Nature Communications再现“孟德尔”发文奇迹！学会复旦团队“LDSC回归+共定位”思路，还担心发不了TOP？

3. 影响因子大跳水，中医药依然坚挺！WGCNA+网络药理学+单细胞测序+细胞间通讯分析，多种分析联合铁死亡，带你走向新灵感！