Cancer Cell | 机器学习开启非TCGA癌症临床样本分子亚型分类新篇章

撰文 | 春晓

癌症传统上是通过其起源器官或解剖部位进行分类的，癌症基因组研究的出现为癌症的分类带来的新的思路，例如大规模癌症基因图谱项目TCGA前所未有地揭示了癌症的分子异质性，在传统的癌症类型内发现了更多的分子亚型，它所定义的分子亚型充分描绘了癌症的潜在生物学过程，为癌症的预后和治疗带来了希望。这种分子亚型分类能够补充传统的组织病理学分类，甚至有可能取而代之。

然而对于大多数癌症而言，分子亚型分类的临床应用还处于起步阶段，以整合聚类方法得到的结果难以推广，产生大量的特征冗余，不适合为癌症标本分配亚型标签，难以推广到临床应用。

为了弥补现有癌症队列中所发现的分子亚型与临床应用的差距，2025年1月2日，来自美国俄勒冈健康与科学大学的Kyle Ellrott与Van Andel Institute的Peter W. Laird、以及Broad Institute的Andrew D. Cherniack研究小组合作在Cancer Cell杂志上发表题为Classification of non-TCGA cancer samples to TCGA molecular subtypes using compact feature sets的研究论文，这篇文章使用了五种不同的机器学习方法训练了癌症分类模型，能够减少特征冗余和特征数量，同时减少过度拟合，评估预测性能。将模型应用于8791个TCGA样本（包括26个不同的癌症队列和106个亚型），创建了一个由737个公开可用的预测模型在线资源，是一个代表了26个癌症队列、五种训练算法和数据类型的高级模型，对非TCGA患者肿瘤样本进行临床亚型分类提供了丰富的基于基因特征的资源平台（图1）。

图1：机器学习训练将癌症样品分类为TCGA分子亚型。

作者采用以癌症类型为中心的亚型分类方法，检索了TCGA所报告的分子亚型，为每个队列定义了癌症亚型，最终得到26个不同的癌症队列（图2）。收集了来自泛癌图谱资源（gdc.cancer.gov/node/977）的五种数据，包括突变、拷贝数、mRNA、DNA甲基化和miRNA数据；应用了五种ML方法，包括AKLIMATE、CloudForest、SK Grid、JADBio、和subSCOPE，对每个癌症队列都分别进行了训练。发现用于定义亚型的数据类型会影响预测性能和分类特征，多组学或组织学定义亚型的队列分类精度高，多数癌症高级模型以mRNA为主要特征。

图2: 癌症分类和亚型。

接下来，作者进行了外部验证，在METABRIC和AURORA两个独立的乳腺癌队列中研究乳腺癌亚型mRNA分类是否能准确预测PAM50标签分配，结果发现得到的PAM50亚型预测与原始PAM50分配高度一致。并且使用单一数据类型作为输入构建的模型所能达到的性能与使用所有数据联合构建的模型性能一样好。对比这五种方法，JADBio的特征选择更加高效。

在大多数癌症类型中，mRNA特征占主导地位，使用mRNA特征输入的模型在具有由多组学定义亚型的癌症队列中表现良好，表明由多种数据类型或组织学定义的亚型可能代表了在转录组水平上相对容易捕获的不同生物学特性。在少数肿瘤类型中，除mRNA之外的数据类型特征具有更好的预测性，例如，对于脑胶质瘤和胃食管腺癌，DNA甲基化输入特征产生的模型比使用基因表达特征的模型更准确。对于皮肤黑色素瘤，使用突变输入特征构建的模型显著优于使用mRNA特征的模型。

分类特征集在某些方面具有相似性，都集中在一些共同的生物学通路中。例如，将来自 COSMIC 数据库的已知癌症相关基因的位置绘制在 PathwayCommons 通路集合的二维投影上作为参考景观，与分类特征集进行比较，发现乳腺癌、脑胶质瘤、结直肠癌的多个分类特征在投影中形成了簇，提示它们涉及相同的通路（图3）。作者通过Meta分析找出导致癌症亚型分类性能更好或更差的数据和机器学习分类的具体特征，确定了影响分类性能的因素，并为每个特征组分配了描述性标签。

图3：分类特征集通路绘制。

对于训练分类所需的样本量问题，作者使用了不同规模和不同复杂性的26个癌症队列进行了大量计算，发现对于大多数癌症，大约150个训练样本足以接近最大模型性能，更大的队列并不会显著提高亚型分类的准确性，在有些情况下，应当考虑不同的数据类型或不同的亚型定义，而不是简单地增加相同数据类型的样本量。对于前瞻性的癌症队列，70个样本足以推断出可靠的曲线拟合并预测未来的亚型分类性能。

癌症分子亚型的发现是TCGA最有影响力的成果之一，为了扩大TCGA亚型数据的效用，这项研究使用五种机器学习方法进行数据训练，提供了一个易于运行的Docker，为非TCGA新样本提供了至少95%的预测准确率（https://github.com/NCICCGPO/gdan-tmp-models），为临床分析开发提供了基础。作者还提供了一个简单的流程图来指导用户选择最佳合适的模型对新样本进行分类（图4）。

图4：新样本分类指导。

总而言之，这项研究通过对来自26个不同癌症队列的106个亚型的8791个TCGA肿瘤样本的多组学数据应用五种不同的机器学习方法来训练分类，构建了一种新的方法，基于少量特征构建模型，为非TCGA癌症样本搭建了分类模型平台。这是迈向临床分子亚型应用的重要一步，为后续临床检测技术的开发提供了有价值的参考。

原文链接：

https://doi.org/10.1016/j.ccell.2024.12.002

制版人：十一

BioART战略合作伙伴

（*排名不分先后）