准确率远超初级皮肤科医生，北大国际医院等开发深度学习算法，实现痤疮病变检测与分级

作者：椰椰

编辑：李宝珠

转载请联系本公众号获得授权，并标明来源

为进一步缩小线下皮肤科医生痤疮诊断的误差，北京大学国际医院皮肤科韩钢文及其团队开发了一种名为 AcneDGNet 的深度学习算法，并将其发表于学术期刊 Scientific Reports 。在多元化的评估显示，该模型无论是在在线咨询还是线下医院诊断场景中，对于痤疮严重程度分级都具有重要意义。

痤疮，又称青春痘，是一种常见的慢性炎症性皮肤病，影响着全球超过 80% 的青少年和 9.4 % 的各年龄段人群。准确的痤疮严重程度分级对于临床治疗和后续管理都至关重要。然而，传统的痤疮分级依赖于皮肤科医生的观察和临床经验，误差在所难免。

近年来，随着人工智能在医疗领域的不断拓展，基于人工智能的痤疮图像分析方法也逐渐受到关注。 尽管已经开发了一些人工智能方法来实现痤疮严重程度分级的自动化，但痤疮图像采集来源的多样性和各种应用场景会影响其性能。

在此背景下，北京大学国际医院皮肤科主任医师韩钢文携其团队开发出一种名为 AcneDGNet 的深度学习算法，能够在不同的医疗保健场景中同时准确地完成痤疮病变检测并判断严重程度。该成果以「Evaluation of an acne lesion detection and severity grading model for Chinese population in online and offline healthcare scenarios」为题，发表于 Nature 旗下子刊 Scientific Reports。

经前瞻性评估表明，AcneDGNet 的深度学习算法不仅比初级皮肤科医生更准确，而且与高级皮肤科医生的准确性相当。 能够在不同的医疗保健场景中同时准确地完成痤疮病变检测并判断严重程度，有效帮助皮肤科医生和患者在在线问诊和线下就医场景中诊断和管理痤疮。

研究亮点

* 创新模型设计：融合视觉 Transformer 与卷积神经网络，能获取更高效的分层特征表，让分级更精准。

* 多元化评估数据集：收集了 2,157 张面部图像，涵盖公共与自建数据集，图像采集设备多样，数据更全面，模型训练和评估更具代表性。

* 多场景全面评估：综合在线问诊、线下就医场景评估模型性能。使用不同性质数据集并结合回顾性和前瞻性数据评估。

* 实验数据参考性强：数据均来自中国人群，选取适合中国数据集的 AGS 量表作为分级标准，更贴合中国临床实际，为国内痤疮诊断和研究提供有力支持。

* 高准确率与临床价值：实验结果显示，在线场景分级准确率达 89.5% ，线下场景达 89.8% ，计数误差小。模型在痤疮分级上比初级皮肤科医生更准确。

论文地址：

https://www.nature.com/articles/s41598-024-84670-z
关注公众号，后台回复「痤疮检测」获取完整PDF

开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读，并提供海量数据集与工具：
https://github.com/hyperai/awesome-ai4s

数据集：多元助力模型训练与测试

研究人员收集了两份公开数据集 ACNE04 和 AcneSCU ，以及三份自建数据集 AcnePA1（平安好医生痤疮数据）、AcnePA2 和 AcnePKUIH（北大国际医院痤疮数据）。ACNE04、AcneSCU 和 AcnePA1 中的所有图像随机划分为训练数据集与测试数据集，而 AcnePA2 和 AcnePKUIH 中的图像仅作为测试数据集。

训练数据集：包含 586 张来自 ACNE04 的图像，由数码相机拍摄；220 张来自 AcneSCU 的图像，由 VISIA 系统收集（用于皮肤检测的数字成像系统）；791 张来自 AcnePA1 的图像，由智能手机拍摄。

测试数据集：针对在线问诊、线下就医两种不同的应用场景选择了 5 个数据集。其中线上问诊场景测试数据包括来自 AcnePA1 的 118 张图像和来自 AcnePA2 的 148 张图像，均由智能手机拍摄。医院就医场景测试数据包含数码相机拍摄的来自 ACNE04 的 147 张图像、VISIA 系统收集的来自 AcneSCU 的 56 张图像以及相机拍摄的来自 AcnePKUIH 的 91 张图像。如下图。

模型开发和评估的具体数据划分

模型架构：视觉 Transformer 与 CNN 相结合

根据「全球疾病负担研究 (GBD) 2021」数据，全球 10-24 岁人群中，痤疮患者高达 2.31 亿，接近 3 亿人，占年龄段的 1/4！在传统痤疮诊断中，医生主要通过视觉评估来判断痤疮的严重程度。但这种方法极大程度上依赖于医生的个人经验，误差较大。此外，医疗资源匮乏地区，人们很难得到专业的皮肤科医生的诊断和治疗。

本文研究中的 AcneDGNet 基于深度学习的创新算法，巧妙地结合了视觉 Transformer (ViT) 和卷积神经网络。

*视觉 Transformer 在特征提取方面有着独特的优势，它能够捕捉到图像中更广泛的特征关系。
*卷积神经网络则擅长对局部特征进行处理，能够准确地识别出痤疮的各种病变。

通过视觉 Transformer 对不同采集源的痤疮图像进行特征提取，生成强大的全局特征。接着，利用卷积神经网络，根据痤疮分级系统 (AGS) 的指南，对粉刺、丘疹、脓疱、结节/囊肿这四种类型的痤疮病变进行检测。最后，通过融合全局特征和局部病变感知特征，来确定痤疮的严重程度。

本研究中所提到的 AcneDGNet 模型由 3 个主要模块组成：特征提取模块、病变检测模块和严重程度分级模块。特征提取模块采用视觉 Transformer 架构，生成更强的全局特征表示；病变检测模块使用卷积神经网络 (CNN) 检测 4 种类型的痤疮病变；严重程度分级模块通过融合全局和局部病变感知特征表示来确定痤疮的严重程度。

AcneDGNet 框架图如下所示，首先将人脸图像输入特征提取模块 (Feature extraction module)，该模块包括 Swin Transformer 架构和特征金字塔架构 (feature pyramid architecture )。然后，将特征提取模块输出的多尺度特征图分别输入到病灶检测模块 (Lesion detection module) 和严重程度分级模块 (Severity grade module) 中。

在病灶检测模块中，通过区域提案网络架构获取痤疮候选区域的特征图，以预测图像中每个痤疮病灶的位置和类别。在严重程度分级模块中，调整多尺度特征图的大小，并与病变检测模块的区域病变感知特征图相结合，以预测痤疮图像的严重程度等级。

AcneDGNet 模型工作框架

在线问诊与线下就医场景下的模型评估

为了更全面地验证 AcneDGNet 模型的有效性，研究人员设计了两个应用场景，包括使用智能手机拍摄面部图像的在线问诊场景，和使用数码相机、VISIA 系统等专业设备进行拍摄的线下就医场景。选择不同的数据集进行相应的评价，采用不同的评价方法。

（一）在线医疗场景的高准确率

在在线医疗场景中，科研人员从 AcnePA1 和 AcnePA2 数据集中精心挑选了测试数据，这些数据均来自患者使用智能手机拍摄并上传的图像，如下图所示，真实地反映了在线医疗中图像采集的实际情况。

AcneDGNet 在在线和线下场景下的性能评估

实验结果令人惊喜，AcneDGNet 在痤疮严重程度分级方面表现出色，总体准确率达到了 89.5%。对于 AcnePA1 数据集，准确率为 85.6%，而在 AcnePA2 数据集上，准确率更是高达 92.6%。 这意味着，AcneDGNet 能够准确地判断痤疮的严重程度，为医生提供可靠的诊断依据。详细评估结果如下表：

AcneDGNet 痤疮严重程度分级表现

除了分级，AcneDGNet 在检测痤疮病情变化趋势方面也展现出了强大的能力。在对 AcnePA2 数据集的测试中，它能够准确地识别出患者痤疮等级的升级、不变或降级情况，准确率达到了 87.8%。在 74 次随访中，它正确识别出了 65 例痤疮变化趋势，如下图：

AcneDGNet 对 AcnePA2 患者的可视化结果

用于检测痤疮严重程度等级变化趋势的混淆矩阵

在计数误差方面，AcneDGNet 同样表现优秀。各类痤疮病变的总计数误差仅为 1.91±3.28 ，其中粉刺的计数误差为 0.70±1.92，丘疹为 1.28±2.01，脓疱为 0.07±0.29，结节/囊肿为 0.12±0.38 ，如下图。如此低的误差率，表明 AcneDGNet 能够精确地检测出痤疮病变的数量，为医生评估病情提供了准确的数据支持。

AcneDGNet 痤疮计数误差统计

（二）线下医院诊断场景性能超越 5 年以上经验医生

在线下就医医疗场景中，AcneDGNet 同样表现出色。科研人员分别基于 ACNE04、AcneSCU 和 AcnePKUIH 数据集对其进行了回顾性和前瞻性评估。如下图：

AcneDGNet 在 ACNE04 数据集上的检测结果示例
AcneDGNet 在 AcneSCU 数据集上的检测结果示例

在回顾性评估中，AcneDGNet 基于 ACNE04 和 AcneSCU 数据集进行测试，结果显示其总体准确率达到了 90.1% 。其中，在 ACNE04 数据集上的准确率为 91.2%，在 AcneSCU 数据集上的准确率为 87.5% 。详细评估结果见下表。

回顾性评估的整体结果

在前瞻性评估中，AcneDGNet 基于 AcnePKUIH 数据集进行测试，并与两位有 5 年以上经验的初级皮肤科医生（JD1 和 JD2）以及两位有 10 年以上经验的高级皮肤科医生（SD1 和 SD2）的诊断结果进行了对比，如图。

AcnePKUIH 上皮肤科医生与 AcneDGNet 精确度

结果令人惊叹，AcneDGNet 的准确率达到了 89.0%，高于初级皮肤科医生的 80.8%，与高级皮肤科医生的 90.7% 也十分接近。综合回顾性和前瞻性评估结果，AcneDGNet 在离线场景下的总体准确率达到了 89.8%。这一成绩无疑彰显了 AcneDGNet 在离线医疗场景中的巨大价值，不仅能够准确地诊断痤疮，还能够为经验不足的医生提供有力的辅助，帮助他们提高诊断的准确性。

AI 赋能皮肤诊断，迈入智能诊疗时代

其实，AI 在皮肤科的应用早已屡见不鲜。2019 年，欧莱雅就与阿里巴巴集团共同发布了全球首个针对痘痘问题的移动端人工智能检测应用——理肤泉艾菲卡痘痘检测 (EFFACLAR SPOTSCAN)。

此外，2023 年 5 月，北京协和医院皮肤科刘洁教授团队与杭州咏柳科技有限公司共同研发的痤疮严重程度智能评估系统也正式面向行业发布。经历 1 年专业医生的应用实践和建议反馈，该系统已经进行了多次的算法升级和功能优化。2024 年 2 月，北京协和医院在官网正式发布科技成果转化公示，系统经过医院审核，正式进入到临床转化应用阶段。

2024 年 7 月，腾讯 AI 痤疮诊疗机器人也正式面市，仅 3 秒钟便可精确诊断，仅 10 秒便能给出治疗方案。此外，腾讯医疗 AI 系统已落地超 1300 家机构，临床试验结果让人瞠目结舌：囊肿型痤疮诊断准确率 99.7%（人类医生仅 82.4%）；提前 6 个月预警痤疮爆发（预测灵敏度 91.3%）；治疗瘢痕风险下降 76%（基于 320万例 AI 模拟）

经过不断的算法迭代，痤疮诊断基本趋于成熟。接下来，人工智能助力皮肤诊断将不断扩展到更多领域。

未来可期，AI for Science 将有无限可能

AcneDGNet 在痤疮诊断上的成功，是 AI 在医疗领域取得的新的突破，让我们看到了 AI for Science 的巨大潜力。它不仅为痤疮患者带来了更准确、更便捷的诊断方式，也为医疗领域的 AI 应用提供了宝贵的经验和范例。

AI for Science 的影响力不仅仅局限于医疗领域。在材料科学、物理学、天文学等其他科学领域，AI 同样可以发挥着重要作用。它可以帮助科学家处理和分析海量的数据，加速科学研究的进程。在材料科学中可以通过模拟和预测材料的性能，帮助科学家设计出更具性能的材料；在物理学中可以帮助科学家分析实验数据，发现新的物理现象和规律；在天文学中，AI 可以帮助天文学家处理和分析天文观测数据，发现新的天体和宇宙现象······

AI 就像一把万能钥匙，正在开启一扇扇通往未知科学领域的大门。相信未来，AI for Science 会带来更多的突破和创新，为人类的进步和发展做出更大的贡献！

参考资料：
1.https://mp.weixin.qq.com/s/vlzUWNQsxYaSVXKSt2dhhQ
2.https://cloud.tencent.com/developer/article/1526199
3.https://mp.weixin.qq.com/s/vN2qruVBq5QGHSB4F3qiIA

往期推荐

戳“阅读原文”，免费获取海量数据集资源！