Py学习  »  机器学习算法

另类思路,单细胞+机器学习+泛癌,纯生信4图拿下6+SCI

生信学霸 • 1 周前 • 23 次点击  

免疫检查点抑制剂虽然改变了癌症治疗,但是只有一小部分患者能从这些治疗中受益。由于肿瘤微环境的复杂性,患者反应的可变性仍然是一个重大挑战。npj Precision Oncology 上发表的新文章通过单细胞转录组测序结合机器学习算法,开发了一个ICI治疗反应预测框架PRECISE,并揭示了具有跨癌种预测能力的11基因特征。

标题:Uncovering gene and cellular signatures of immune checkpoint response via machine learning and single-cell RNA-seq

期刊:npj Precision Oncology(IF 6.8)

出版商:Springer Nature

发表:2025年4月2日

DOI:https://doi.org/10.1038/s41698-025-00883-z

关键词:癌症微环境 | 单细胞转录组 | 机器学习 | 免疫疗法 | 预测标志物

技术手段:单细胞转录组、机器学习算法、特征选择、SHAP分析等

核心思路:


 材料与方法 

Materials and Methods

数据来源:从GEO、Figshare、ArrayExpress数据库和他人研究中获取不同癌种的单细胞转录组数据集;从CELLxGENE Discover数据库获取整合数据集。

数据预处理:质控后过滤低表达基因,非编码基因、线粒体基因和核糖体蛋白基因被排除,仅保留至少在3%细胞中表达的基因。

机器学习模型构建:使用XGBoost作为基础模型,在单细胞水平上使用留一法(LOO)交叉验证进行训练和测试;使用scikit-learn、PyTorch和LightGBM包构建其他机器学习模型。

特征选择:使用Python包Boruta中的boruta_py应用Boruta特征选择方法提取与治疗反应相关的基因;使用sklearn包中的Lasso算法选择特征以执行LOO预测。

SHAP分析:使用SHAP包计算特定基因的SHAP值以分析基因对预测的贡献。

细胞层面的预测:基于XGBoost构建强化学习框架,以量化每个单细胞对预测的贡献,将细胞分为“响应预测性”、“非响应预测性”和“非预测性”三类。


 分析结果 

Results

基础模型特征选择和每个细胞类型预测

目的:开发一种可预测患者ICI治疗反应的机器学习模型,并提取与治疗反应相关的基因和细胞类型特征。

结果:

  1. 使用包含16291个CD45+免疫细胞的黑色素瘤单细胞RNA测序数据集,构建了一个基于XGBoost的机器学习模型,ROC AUC得分为0.84(图1b);

  2. 相比LightGBM、Logistic Regression等机器学习模型,XGBoost的表现优于或与大多数模型表现相当,但它平衡了表现力和可解释性,因此被选为最优模型;

  3. 通过特征重要性分析,提取了11个与治疗反应相关的基因(如GAPDH、STAT1、CD38等),这些基因均已被发现与 ICI 和肿瘤免疫有关(图 1c);

  4. 按原始论文的分类,将细胞分为11个簇和13个细胞类型,并对每类细胞分别进行模型训练和预测;

  5. 结果表明,T细胞亚群在预测中表现最佳,AUC值为0.87-0.82,而B细胞和巨噬细胞等其他细胞类型的预测能力较低(图1d);

  6. 相比其他特征贡献评估方法,应用Boruta方法的模型AUC值更高,大多数细胞类型的精度也更高,并且不同类型细胞组的TOP基因均与癌症免疫和激活有关(图1e-i)。

图1


SHAP值分析揭示了复杂的基因行为和相互作用

目的:通过SHAP值分析,深入探讨基因在预测ICI治疗反应中的复杂行为和相互作用。

结果:

  1. 使用SHAP值分析XGBoost模型的预测结果,并量化每个基因对预测的贡献,如GAPDH和STAT1的表达式与无响应有关,但两者关系不同,而HSPA1A表现出非单调关系——极低和极高表达与响应相关,中间表达与非响应相关(图2a-c);

  2. 除了单基因,特征选择中的TOP基因及其在预测免疫治疗反应方面最具交互作用的伙伴的不同表达模式对治疗反应也有显著影响(图2d);

  3. 细胞类型特异性分析显示,某些基因对(如CCL5-CD38和CCL4-HLA-B)的相互作用在T细胞中更为显著,表明这些相互作用在T细胞中对预测尤为重要(图2e);

  4. 此外,SHAP值分析还可进一步阐明模型的行为,以了解为何某些样本正确或错误地预测(图2f)。

图2


强化学习可以标记每个细胞的预测性

目的:通过强化学习方法量化每个细胞对模型预测的影响。

结果:

  1. 将XGBoost从分类器模型切换到Regressor模型,迭代预测每个cell的分数并根据预测是否正确来更新其值,正负值越大表明响应和非响应的预测能力越强,而接近零的评分表示这些细胞与患者反应的总体关联较弱(图3a,b);

  2. 根据聚类和最终的细胞评分,将细胞分为非反应预测(0.5)三类;

  3. 不同细胞簇中的预测性细胞比例与该簇与治疗反应的关系存在明显关联,如与非响应者相关的簇G3、G6、G11中非响应预测性类细胞比例较高,而与响应者相关的簇G1和G10中响应预测性类细胞比例较高(图3c);

  4. 值得注意的是,非预测性细胞在大多数细胞簇中普遍存在,表明需要更精细的方法来筛选预测性细胞;

  5. 与预期一致,在分类良好的样本中,预测细胞的比例要高得多,而错误分类的样本中非预测细胞的比例较高,体现了不同样本中TME异质性(图3d);

  6. 最后,研究通过差异分析了与预测性相关的基因,如PKM、PGAM1、ACTB在非响应预测性细胞中高表达,而SELL、MS4A1在响应预测性细胞中高表达(图3e)。

图3


基于基因和细胞的特征可预测患者对ICI的反应

目的:构建和验证基于基因和细胞的特征,用于预测患者对ICI的反应,并评估其在多种癌症类型中的泛化能力。

结果:

  1. 对模型进行留一法(LOO)交叉验证并从每个Fold中提取了特征重要性得分最高的基因,它们的交集TOP11基因被选为特征 (图4a);

  2. 富集分析显示,这11个基因与免疫激活、干扰素信号传导和T细胞相关途径有关,12个与坏死相关;

  3. 按特中基因的等权重综合分数设计特征评分,其中CCR7的权重经过专门负调整;

  4. 在训练数据集(黑色素瘤)和外部数据集中,11基因特征具有较高的预测准确性,AUC值范围在0.76到0.95之间(图4a);

  5. 使用GEPIA2工具绘制的生存曲线显示,在多种癌症类型中,11基因特征中的CCR7、STAT1、GBP5、LGALS1、EPSTI1、IFI6和GAPDH的高表达与更好的生存率显著相关,而其他基因未显示出显著的预后价值(图4b)。

图4


 结论 

Conclusion

本文对生信能力有一定要求,文中的Boruta方法调优和细胞层次治疗反应预测方面均为亮点。研究通过结合单细胞转录组测序数据和机器学习方法,开发了一种名为PRECISE的预测框架,用于评估患者对免疫检查点抑制剂(ICI)治疗的反应。研究提取了一个包含11个基因的签名,并通过强化学习框架识别了具有预测性的单细胞特征。这些基因和细胞特征在多种癌症类型中展现出跨癌种的预测能力,揭示了肿瘤微环境中免疫反应的复杂性,并为精准医疗提供了潜在的生物标志物和治疗策略优化工具。此外,机器学习模型不仅能预测治疗反应,还能深入解析基因-基因相互作用和细胞层面的动态变化,为未来精准医疗工具的开发提供了重要支持。


END

公众号后台私信太多回复不及时,SCI论文润色服务可以添加下图客服微信👇,其他合作或平台交流可加入我们平台交流群(Q群二维码在下面👇)找管理员对接,与你的同行们共同交流、学习、进步。

SCI论文润色|翻译|降重|投稿咨询|SCI期刊推荐等业务详情请扫码咨询!


不想错过生信文献解读

欢迎大家添加生信学霸为星标推荐

SangerBox小红书

打开小红书,扫码关注

每天更新生信相关资讯

SangerBox交流群 

QQ群:744969477

SangerBox平台交流群


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/181054
 
23 次点击