大家好,今天小编给各位分享的是一篇发表在《Cell discovery》(IF:13)上的一篇文章。这篇文章主要通过机器学习算法和蛋白质组学分析,开发了一种新的预后预测模型,用于精准预测II-III期结肠癌患者的长期生存情况。研究招募了来自不同医院的结肠癌患者进行蛋白质组学检测,并结合临床特征,筛选出对预后有显著影响的蛋白质标志物。通过训练集构建模型并在验证集中验证,结果表明该模型能够显著提高预后预测的准确率,为结肠癌患者的个性化治疗提供了有力支持。
添加微信
一.研究背景
TNM分期为II期和III期的结肠癌(CC)患者占据多数,但现有治疗策略,尤其是辅助治疗的选择,常受限于不准确的预后预测。这些患者的临床病理特征及生物标志物状态复杂多变,传统风险因素难以全面评估其生存风险。因此,开发一种能够精准预测个体预后的工具显得尤为重要。文章旨在通过结合蛋白质组学数据和机器学习算法,构建一种新型预测模型,以弥补现有预后评估体系的不足,为结肠癌患者提供更加个性化和精准的治疗建议,从而提高治疗效果和患者生存率。
二.实验设计
图1|实验工作流程
1.样本采集与数据收集
患者招募:从浙江大学第二附属医院(SAHZU)招募了230名II-III期结肠癌患者作为训练队列,从西京医院(XJH)招募了58名患者作为外部验证队列。所有患者均接受了根治性手术,并有超过5年的随访数据。
样本处理:收集患者的福尔马林固定石蜡包埋(FFPE)手术标本,使用压力循环技术(PCT)进行样本处理,以提高蛋白质提取效率。
2. 蛋白质组学分析
质谱检测:采用数据非依赖采集(DIA)质谱法(MS)对处理后的样本进行蛋白质组学分析,共鉴定和定量了8187个蛋白质组和6256种蛋白质。
数据质量控制:通过多次重复实验和严格的质控标准,确保蛋白质组学数据的高重复性和可靠性。
3.特征选择与模型构建
特征筛选:利用LASSO回归等统计方法,从大量蛋白质数据中筛选出对预后有显著影响的9种蛋白质标志物(PDP1、ALR、ENOG、NPC2、FYCO1、STXB1、ARH40、RIMC1、MTMR5)。
模型建立:结合筛选出的蛋白质标志物和临床特征(如病变部位、病理类型、分期、微卫星不稳定性状态等),采用机器学习算法构建预后预测模型。
4.模型训练与验证
训练队列:在SAHZU患者的数据集中对模型进行训练,通过不断调整参数和优化算法,提高模型的预测性能。
验证队列:使用XJH患者的独立数据集对训练好的模型进行验证,评估其在不同患者群体中的普适性和准确性。
5.性能评估
评估指标:采用接收者操作特征曲线(ROC)下的面积(AUC值)、灵敏度、特异度、阳性预测值(PPV)、阴性预测值(NPV)、总体准确率和F1分数等多个指标综合评估模型的预测性能。
三.实验结果
图2|模型的研究和性能示意图研究团队首先利用患者的临床特征(如年龄、性别、病变部位、病理类型、分期、微卫星不稳定性状态等)构建了一个临床特征预测模型。然而,该模型在训练队列中的AUC值仅为0.707(图2b),表明单独使用临床特征的预测能力有限。随后,研究团队基于筛选出的9种蛋白质标志物构建了一个蛋白质组学预测模型。该模型在训练队列中的AUC值提升至0.872(图2c),显示出比临床特征模型更优越的预测性能。为了进一步提高预测准确性,研究团队将临床特征和蛋白质组学特征相结合,构建了一个综合预测模型。该模型在训练队列中的AUC值达到了0.926(图2d),显著高于单独使用临床特征或蛋白质组学特征的模型。为了验证模型的普适性和准确性,研究团队在外部验证队列(西京医院,XJH)中对模型进行了测试。结果显示,结合模型在验证队列中的AUC值也保持在较高水平(0.872)(图2d),证明了模型具有良好的泛化能力。
随后研究团队利用模型对患者进行了风险分层,将患者分为低风险组和高风险组。结果显示,低风险组的5年总生存率(OS)显著高于高风险组(训练队列中为95% vs. 39%,验证队列中为93% vs. 53%)(图2e),这表明模型能够准确地识别出预后较差的患者群体,为临床决策提供了重要参考。
此外,研究团队对筛选出的9种蛋白质标志物在结肠癌进展中的作用机制进行了深入分析。例如,PDP1的激活可能诱导放射抵抗,ALR作为抗凋亡和抗转移因子促进细胞生存,ENOG通过上皮-间质转化(EMT)促进结肠癌转移等。这些发现不仅加深了对结肠癌分子机制的理解,也为未来开发针对性治疗方法提供了新的思路。值得注意的是,MTMR5和RIMC1这两种蛋白质在此前的研究中并未与肿瘤直接相关联。这表明当前的蛋白质组学方法具有揭示肿瘤相关新蛋白的潜力,为结肠癌的研究开辟了新的方向(图2f)。
尽管研究团队取得了显著的研究成果,但文章也指出了模型的局限性。例如,验证队列的样本量相对较小,可能影响模型的稳定性和泛化能力。此外,模型参数的选择和优化也有待进一步探讨。
四.结语
文章到这里就介绍完了,本研究通过集成先进的蛋白质组学技术和机器学习算法,成功开发出一种新型预后预测模型,为II-III期结肠癌患者的长期生存预测提供了有力工具。通过深入分析筛选出的九种关键蛋白质标志物,研究人员进一步揭示了它们在结肠癌进展中的作用机制,为结肠癌的分子病理学研究提供了新的视角。特别是MTMR5和RIMC1等新发现的肿瘤相关蛋白,展示了蛋白质组学在挖掘隐藏肿瘤标志物方面的巨大潜力。然而,我们也清醒地认识到,当前模型仍存在局限性,如验证队列样本量较小等。
参考文献
Xu K, Yin X, Chen H, Huang Y, Zheng X, Zhou B, Cai X, Gao H, Tian M, Hu S, Zheng S, Yuan C, Nie Y, Guo T, Shao Y. Prediction of overall survival in stage II and III colon cancer through machine learning of rapidly-acquired proteomics. Cell Discov. 2024 Aug 13;10(1):85. doi: 10.1038/s41421-024-00707-7. PMID: 39134531; PMCID: PMC11319451.
添加微信