2024年8月,温州医科大学衢州附属医院、电子科技大学长三角研究院、四川大学华西医院、三亚市人民医院、河南省人民医院放射科在Nature Communications杂志发表了题为 Focal liver lesion diagnosis with deep learning and multistage CT imaging的研究。
诊断肝脏病变对于治疗选择和患者预后至关重要。本研究开发了一种使用多相增强计算机断层扫描 (CT) 的肝脏病变自动诊断系统。共有来自 6 个数据中心的 4039 名患者被招募来开发肝脏病变网络 (LiLNet)。LiLNet 可识别局灶性肝脏病变,包括肝细胞癌 (HCC)、肝内胆管癌 (ICC)、转移性肿瘤 (MET)、局灶性结节性增生 (FNH)、血管瘤 (HEM) 和囊肿 (CYST)。LiLNet 在四个外部中心进行了验证,并在两家医院进行了临床验证,对良恶性肿瘤的准确率 (ACC) 为 94.7%,曲线下面积 (AUC) 为 97.2%。对于 HCC、ICC 和 MET,ACC 为 88.7%,AUC 为 95.6%。对于 FNH、HEM 和 CYST,ACC 为 88.6%,AUC 为 95.9%。LiLNet 可以帮助临床诊断,尤其是在放射科医生短缺的地区。
图1 队列设置流程图。a 训练、测试和外部验证队列的患者招募过程。b 真实世界的临床测试数据集是从两家医院获得的。HCC 表示肝细胞癌,ICC 表示肝内胆管癌,MET 表示转移性癌症,FNH 表示局灶性结节性增生,HEM 表示血管瘤,CYST 表示囊肿。
图2 模型在测试队列中的性能。a 在各种 IoU 阈值下病灶检测的结果(交集与并集 (IoU) 大于阈值的框是真阳性,而 IoU 较低或重复次数较少的框是假阳性。未检测到的框是假阴性)。b、c 和 d ROC 曲线分别用于区分良恶性肿瘤、恶性肿瘤(HCC、ICC 和 METs)和良性肿瘤(FNH、HEM 和囊肿)。e ACC、F1、召回率和良恶性肿瘤分类的精确率。f ACC、F1、召回率和恶性肿瘤分类的精确率。g 良性肿瘤分类的指标相同。
图3 LiLNet 模型在外部验证集上的泛化性能。a-c 显示 HN 外部验证集中用于区分良恶性肿瘤的 ROC 曲线。d 提供 ACC、F1、召回率和精确率来区分此区别。e 表示用于识别恶性肿瘤的 ACC、F1、召回率和精确率,而 f 表示良性肿瘤的相同指标。g 模型的 ACC 和 CD 验证集中 HCC 的 AUC。h LS 验证集中 HCC 和 ICC 的模型 ACC 和 AUC。i 用于在 GZ 验证集中区分 HCC 和 ICC 的 ACC 和 AUC。
图4 LiLNet 在不同条件下的性能。a 使用测试集中的不同阶段图像比较三种类型恶性病变(HCC、ICC 和 MET)的 AUC、F1、召回率和精度以及三种类型良性病变(FNH、HEM 和囊肿)的分类。b 使用测试集中的不同阶段对三种类型的恶性病变进行分类和三种类型良性病变分类的混淆矩阵。c 在 HN 外部验证队列中使用不同阶段比较三种恶性病变分类的 AUC、F1、召回率和精度以及三种类型良性病变的分类。d 使用验证集中的不同阶段对三种类型的恶性病变进行分类和三种类型良性病变分类的混淆矩阵。e 混淆矩阵用于描述患者的病变分类,根据 AI 系统和放射科医生提供的诊断将它们分为四组。f 华西医院的临床验证结果。g 三亚市人民医院的临床验证结果。
图5 模型决策的可视化过程。a 由最后一个卷积层生成的类激活映射。第一行显示原始图像,而第二行显示相应的激活映射。红色表示较高的关注值,蓝色表示较低的值,红色圆圈表示肿瘤区域。b SHAP 图揭示了像素对 HCC、ICC、MET、FNH、HEM 和囊肿病变模型预测的影响,在正确预测 HCC 类别中SHAP 图显示红色激活主要集中在病变区域,在 ICC 和 MET 等其他类别的 SHAP 图中,虽然存在一些红色像素,但并不集中在病变区域,在其他类别中病变区域外出现红色激活可能表明模型在预测过程中存在误判或混淆。
图6 随机数据与时间数据的结果比较。按照时间顺序排序,使用早期数据进行训练,使用后期数据进行测试。a 显示比较Test和HN外部验证集中良恶性肿瘤鉴别的ROC曲线。b 为比较Test和HN外部验证集中良性肿瘤鉴别的ROC曲线。c 为鉴别恶性肿瘤的ROC曲线。d 在Test和HN外部验证集中显示ACC用于区分良恶性肿瘤。e 证明了ACC在测试和HN外部验证集中用于区分良性肿瘤。f 在HN、CD、GZ和LS验证集中提供了识别恶性肿瘤的ACC。
该研究开发了一种用于临床肝脏诊断的深度学习人工智能辅助系统LiLNet。训练数据集广泛而多样,包括从不同 CT 设备获取且具有不同窗宽窗位设置的图像,还包括代表不同肝脏状况的样本,包括肝硬化、纤维化、炎症、脂肪肝和存在腹腔积液。该模型包括两个阶段:一,检测病灶,最大限度地减少不相关的背景信息,将模型的注意力引导到肿瘤上;二、将肝脏肿瘤分类任务分为良性和恶性阶段,然后进行亚型分类。