Cancer Res | 杨柳/鲍军团队基于5种cfDNA片段组学特征开发机器学习集成模型，可准确、灵敏检测早期结直肠癌

结直肠癌（CRC）是全球常见癌症之一。CRC早期症状不明显，患者获得早期诊断的五年生存率可达90%，而晚期降至12.5%。结肠镜检查是CRC筛查的金标准，但侵入性、肠道准备和高成本等因素限制了其应用，且患者依从性较低。粪便潜血试验（FOBT）和粪便免疫化学检测（FIT）是无创和经济的，但灵敏度不足。基于血浆cfDNA的液体活检是早期检测CRC的有潜力的方法，但其临床应用仍受到复杂性和成本的阻碍。

近日，南京医科大学附属肿瘤医院/江苏省肿瘤医院杨柳教授、鲍军教授团队联合世和基因团队利用先进的机器学习分析cfDNA片段模式，开发了一种微创、有效的早期CRC检测方法，以加快诊断并改善患者的治疗结果。该研究已在Cancer Research发表，文章题为“Multi-Dimensional Fragmentomics Enables Early and Accurate Detection of Colorectal Cancer”。

该研究旨在利用cfDNA片段组学建立一个精确、经济的早期CRC检测集成模型。研究团队使用五种血浆cfDNA片段组学特征，结合由五种机器学习模型组成的集成模型来区分CRC患者与健康对照。结果显示，该模型在CRC患者和对照组之间表现出显著的区分能力，优于所有基础模型；在独立和前瞻性队列中均显示出高灵敏度和特异性。

研究设计

该研究共招募了360名参与者用于训练模型，包括176名CRC患者和184名健康个体（图1）。参与者平均年龄在60岁左右，大多数为早期CRC患者。在CRC患者中，癌胚抗原（CEA）阴性比例较高，CA19-9和AFP阴性在CRC患者中也比健康对照组更常见，CA125阳性在CRC患者中更为普遍。健康个体中，除CA125外，上述4项生物标志物的阴性结果均超过90%。

此外，研究团队还组建了一个独立的验证队列，由117名CRC患者和119名健康对照组成；以及一个前瞻性队列，包括242名参与者，以评估构建的堆叠模型在现实世界中的适用性。该研究的所有参与者均来自江苏省肿瘤医院。

研究团队选取了5种cfDNA特征：FSR（片段大小比）、FSD（片段大小分布）、CNV（拷贝数变异）、NF（核小体足迹）、MC（突变背景）。利用FSR和FSD，根据DELFI片段大小曲线构建片段大小曲线，增强预测能力。同时，研究团队利用五种主要算法为上述每种特征类型生成200个基本模型，每个模型都使用来自训练队列的健康和CRC样本来训练其分类器，并计算每个样本的相应癌症评分。随后，采用一种集成方法，将每种特征类型中癌症评分排名前五的基本模型编译成一个矩阵，进而创建最终的集成模型FRAGTECT。

图1.研究设计示意图

特征评估和集成模型评估

研究显示，新构建的集成模型在训练队列中预测能力极强，AUC达到0.997（95% CI:0.994-1.000），在独立队列中进行验证，AUC为0.986（95% CI:0.973-0.999）（图2A）。基础模型使用单一特征的AUC在0.903-0.964之间，因此集成模型的预测能力更优（图2B）。通过研究设定癌症评分的阈值（FRAGTECT-1和FRAGTECT-2），在训练数据集中的特异性分别达到98.0%和99.5%。在验证队列中，相同截断值保持了0.9747和0.9832的高特异性，同时FRAGTECT-1和FRAGTECT-2的灵敏度分别为0.9316和0.9231。两种阈值下模型预测能力的分析显示，癌症患者的癌症预测评分显著高于健康人群（图2C），因此包含五个cfDNA特征的多维集成模型表现出超强的预测能力。

图2.集成模型性能评估

模型稳定性和鲁棒性评估

在独立验证队列中，集成模型的灵敏度为94.88%，特异性为98%，随着癌症的进展，灵敏度逐渐提高。此外，研究团队利用3名癌症患者和3名健康对照者的重复样本评估了集成模型的可重复性和再现性，发现FRAGTECT-1/2能够以100%的准确率预测这些样本的疾病状态，且不同批次样本的检测结果具有高度一致性。对于该模型的稳定性，研究人员在不同时间点收集了另外四名健康参与者的样本，FRAGTECT -1/2能以100%的准确率准确预测所有4名健康志愿者的疾病状态。即使在较低WGS覆盖率4×、3×、2×、1×和0.5×的情况下，模型的AUC仍然保持高值（≥0.9185）。以上结果凸显了该集成模型在不同场景下的稳健性和一致性能。

预测模型在癌症样本亚组中的性能

研究通过分析CRC亚组在验证队列中的表现，评估了FRAGTECT-1和FRAGTECT-2模型的性能（图3）。FRAGTECT-1在早期CRC患者中的灵敏度较高，0-I期和II期的敏感性分别为0.8824和0.9167，FRAGTECT-2表现出类似的性能。随着癌症分期的进展，在验证数据集中观察到预测灵敏度增强。在III期和IV期患者中，FRAGTECT-1对III期患者的灵敏度为0.9535，FRAGTECT -2为0.9302；两种模型对IV期患者的预测灵敏度均为100%。

值得注意的是，两个模型对右侧CRC的检测灵敏度均优于左侧肿瘤（图3B）。FRAGTECT-1对大于3厘米的肿瘤敏感性更高，FRAGTECT-2对小于3厘米的肿瘤更敏感（图3C）。在伴有淋巴结转移的CRC患者中，两个模型的敏感性均超过90%（0.9545和0.9318）。此外，FRAGTECT模型在特定生物标志物（如CEA、CA125、CA19-9和AFP）检测阴性的CRC患者中显示出高敏感性。对不同CRC患者亚组的准确预测表明该集成模型在不同临床场景中的可靠适用性。

图3.CRC患者亚组中FRAGTECT-1/2的性能

前瞻性队列中的模型性能

在前瞻性队列中，集成模型的预测能力再次得到了验证，AUC达到0.969。FRAGTECT-1和FRAGTECT-2模型在前瞻性数据集中的特异性分别为0.9558和0.9646，灵敏度分别为0.9147和0.8372，PPV分别为0.9593和0.9643（图4B）。两个模型在两个亚队列中的性能保持一致，且随着癌症分期的进展，预测灵敏度显著提高。

研究团队利用已发表的检测方法评估了集成模型在真实世界中的临床潜力。FRAGTECT模型可检测到98%的中国I期CRC病例，在标准治疗中检测到47%的晚期（III/IV）CRC病例，将5年生存率从66%提高到84%。在美国病例中，该模型也显示出早期诊断的优势，26%的III期CRC患者和21%的IV期CRC患者被诊断为I期，表明该模型在早期CRC检测中的有效性。（图4）

图4.集成模型在前瞻性队列中的性能评估

综上所述，该研究提出了一种基于cfDNA特征的集成模型，结合了五种算法和五个cfDNA特征（FSR、FSD、CNV、NF、MC），用于非侵入性地检测CRC。该模型在独立验证队列和前瞻性队列中展现出高敏感性和特异性，AUC值分别为0.986和0.969，总体灵敏度为95.3%，特异性为90.0%，且成本较低。同时研究还指出，该模型在早期CRC检测中的有效性仍需在更大、更多样化的队列中进一步验证。

论文原文：

Cao Y, Wang N, Wu X, et al. Multi-Dimensional Fragmentomics Enables Early and Accurate Detection of Colorectal Cancer. Cancer Res. 2024 . https://doi.org/10.1158/0008-5472.CAN-23-3486

·END·

活动推荐

热文推荐

戴琼海/邓岳团队构建多模态融合的深度生成模型soScope

提前10年预测超50种疾病的发病风险

11种空间转录组学方法的系统比较

EGFR和TP53基因共突变可导致肺癌靶向治疗耐药性

快点亮"在看”吧