Immunity | 机器学习可改进对肿瘤新抗原免疫原性的预测

撰文 | Qi

近年来，在接受自体体外培养的肿瘤浸润淋巴细胞 (TIL) 过继转移的肿瘤类型患者中，特异性识别突变新抗原（neoantigen）的T细胞在介导有效的抗肿瘤反应中发挥着关键作用【1】。基因组学、生物信息学和计算机HLA结合预测工具的技术进步促进了对单核苷酸变异 (SNVs) 、插入和缺失 (InDels) 以及移码 (FS) 编码的新抗原的发现取得突破，先进的免疫筛选技术也促进了新抗原反应性T细胞的检测和分离【2, 3】。然而，新抗原中只有一小部分具有免疫原性，使得它们的识别具有挑战性，另一方面，尽管评估新抗原出现在患者HLA分子上的可能性以及被高亲合力T细胞克隆型特异性识别的可能性的各种算法已被提出，但不同实验室的评估标准和排名并未达成一致，且不同数据集之间免疫原性预测方法的性能也有所不同。

近日，来自瑞士洛桑大学的Michal Bassani-Sternberg团队在Immunity杂志上发表了一篇题为Machine learning methods and harmonized datasets improve immunogenic neoantigen prediction 的文章，他们使用统一的突变检测流程重新处理了多个数据集的全外显子测序（whole-exome sequencing, WES）及RNA-seq结果，证明在其中一项公共数据集—国家癌症研究所（NCI）上训练的机器学习分类器可准确预测每个数据集新抗原的免疫原性，性能优于已发布方法【4】，这项工作对于开发有效的个性化免疫治疗策略具有重要意义。

癌细胞可能存在数百个体细胞突变，但只有少数可被HLA呈递并被T细胞识别，为了准确选择最具有免疫原性的突变，该团队使用包含WES和RNA-seq数据以及数百种突变和新抗原肽免疫原性测定结果的数据集来训练和测试用于突变和新抗原肽排序的机器学习算法。他们将数据集中几乎所有表达的突变在体外转录并转染到抗原呈递细胞中，与TIL细胞共培养，进行IFN-γ酶联免疫斑点试验（enzyme-linked immunospot, ELISpot）以测试免疫原性。就基因组分析结果而言，他们在此确定的SNVs与之前课题组基于这些数据集所鉴定的几乎一致。除了常用于新抗原排序的特征外，该团队还进一步添加了多个特征评分以测量肽呈递的倾向性，其中，在免疫原性表位内的T细胞受体（TCR）接触残基处观察到对疏水性氨基酸的显着偏向，因此他们使用PRIME预测器来捕获与TCR识别相关的疏水性相关分子特性。此外，他们还使用ipMSDB数据库【5】（基于质谱鉴定HLA结合肽的免疫肽组学数据库）以评估新肽被HLA自然加工并呈现在细胞表面的可能性。通过对几个数据集的比较发现，NCI数据集筛选的突变和新肽数量最多，因而最适合用于训练机器学习模型（NCI-train）。

图1. 本研究的数据处理流程。

接下来，该团队研究了突变或新肽特征如何与免疫原性相关。与已发表的结果一致，蛋白酶体切割、与抗原呈递相关的转运蛋白导入内质网和结合稳定性的特征与所有三个数据集中的免疫原性相关，与非免疫原性突变相比，免疫原性突变在患者肿瘤RNA-seq数据中具有更高的基因表达和更高的突变覆盖率，且免疫原性新肽的ipMSDB评分更高。

接下来，作者使用贝叶斯优化框架Hyperopt在NCI-train上训练分类器，通过对NCI-train进行留一法交叉验证测试，发现逻辑回归（LR）分类器表现最好，其次是XGBoost、CatBoost和SVMs，而PCA分析显示LR和XGBoost对免疫原性新抗原肽的排序互补，说明两者的组合能更全面准确地评估新抗原肽的免疫原性，于是作者构建了投票分类器（voting classifier），在NCI、TESLA和HiTIDE的测试数据集中，投票分类器的排序性能对始终优于或与LR和XGBoost分类器相当。最后，将这些结果与之前发布的NCI测试集的23患者数据进行比较【4】，将更具有免疫原性进入前20名的新抗原肽的数量增加了30%，进入前50名的数量增加了26.7%，而进入前100名的数量增加了11.8%。此外，他们还将TESLA数据集的结果与之前报告的结果进行比较【6】，由于参与TESLA研究的所有其他组，表明机器学习分类器在NCI-train数据集上进行训练，表现出强大的泛化能力，并在应用于独立TESLA数据集时产生高度准确的结果。

患者特异性新抗原的准确预测和排序仍然是开发有效癌症疫苗和基于新抗原的T细胞疗法的重要障碍，而不同实验室中用于评估免疫原性的方法不同所造成的结果差异强调了协调各个数据集并提供具有普适性结果的重要性。这项工作通过在NCI大型队列中训练几种分类器算法并在不同数据集中进行测试和比较，证明了该方法在对免疫原性新肽排序方面的卓越性能，这对于开发有效的个性化免疫治疗具有重要意义。

原文链接：

https://doi.org/10.1016/j.immuni.2023.09.002

制版人：十一

参考文献

1. Tran, E., Ahmadzadeh, M., Lu, Y.C., Gros, A., Turcotte, S., Robbins, P.F., Gartner, J.J., Zheng, Z., Li, Y.F., Ray, S., et al. (2015). Immunogenicity of somatic mutations in human gastrointestinal cancers. Science 350, 1387–1390. https://doi.org/10.1126/science.aad1253.

2. Bentzen, A.K., and Hadrup, S.R. (2017). Evolution of MHC-based technologies used for detection of antigen-responsive T cells. Cancer Immunol. Immunother. 66, 657–666. https://doi.org/10.1007/s00262-017-1971-5.

3. Arnaud, M., Chiffelle, J., Genolet, R., Navarro Rodrigo, B., Perez, M.A.S., Huber, F., Magnin, M., Nguyen-Ngoc, T., Guillaume, P., Baumgaertner, P., et al. (2022). Sensitive identification of neoantigens and cognate TCRs in human solid tumors. Nat. Biotechnol. 40, 656–660. https://doi.org/10.1038/s41587-021-01072-6.

4. Gartner, J.J., Parkhurst, M.R., Gros, A., Tran, E., Jafferji, M.S., Copeland, A., Hanada, K.I., Zacharakis, N., Lalani, A., Krishna, S., et al. (2021). A machine learning model for ranking candidate HLA class I neoantigens based on known neoepitopes from multiple human tumor types. Nat. Cancer 2, 563–574. https://doi.org/10.1038/s43018-021-00197-6.

5. Muller, M., Gfeller, D., Coukos, G., and Bassani-Sternberg, M. (2017). ‘Hotspots’ of antigen presentation revealed by human leukocyte antigen ligandomics for neoantigen prioritization. Front. Immunol. 8, 1367. https://doi.org/10.3389/fimmu.2017.01367.

6. Wells, D.K., van Buuren, M.M., Dang, K.K., Hubbard-Lucey, V.M., Sheehan, K.C.F., Campbell, K.M., Lamb, A., Ward, J.P., Sidney, J., Blazquez, A.B., et al. (2020). Key parameters of tumor epitope immunogenicity revealed through a consortium approach improve neoantigen prediction. Cell 183, 818–834.e13. https://doi.org/10.1016/j.cell.2020.09.015.

BioArt

Med

Plants

人才招聘

会议资讯

转载须知

【原创文章】BioArt原创文章，欢迎个人转发分享，未经允许禁止转载，所刊登的所有作品的著作权均为BioArt所拥有。BioArt保留所有法定权利，违者必究。