在临床实践中,尽管数字病理学越来越普遍,处理和分析通常在有限的数字辅助下进行。数字病理学涉及获取和管理数字化组织样本,称为全视野数字切片(WSI)。WSI通常以多尺度格式存储,允许病理学家在分析期间可视化图像的不同细节,从最低到最高放大级别。尽管概述报告(包括结构化格式的患者特定数据)预计将越来越普遍,但半结构化自由文本报告仍然是临床设置中的标准。半结构化报告包括多个领域,如组织样本类型、分析期间确定的结果、早期诊断和患者的既往史。
计算病理学是一个以计算机辅助诊断工具为中心的新领域,用于自动分析数字病理图像。卷积神经网络(CNN)已成为解决多个计算病理任务的最先进方法,达到了高性能。然而,尽管有越来越多的方法、应用和科学发现,但数字临床病理学数据的全部潜力仍未实现,还有一些挑战仍然存在。首先,CNN通常需要大数据集用于训练模型,以处理临床实践的高数据可变性。第二,在计算病理学中提供最高性能的全监督方法需要像素级注释,这在医学环境中很难获得,因为非常消耗资源和时间。第三,WSI在适应内存方面也很有挑战性。最后,由于缺乏跨图像和中心的组织制备和采集的标准化,WSI在染色变化方面可能具有高度异质性,染色异质性导致从异质医学背景中获取的数据的模型泛化程度较低。
近年来,弱监督学习方法已经出现。弱监督学习法使用全局(弱或图像级)注释,而不是局部(像素级)注释。全局注释通常指的是整个图像,即使它们通常是从图像的特定和小的子区域导出的。例如,WSI可能被标记为包含“癌症”,即使癌组织仅出现在整个图像的1-2%。因此,弱监督CNN需要比完全监督方法更大的训练数据集才能达到可比性能。到目前为止,在大多数情况下,需要医学专家从报告中提取弱标签。
近日,一组来自瑞士、意大利、波兰、荷兰等国家的研究团队在杂志npj Digital Medicine上发表了一篇题为“Unleashing the potential of digital pathology data by training computer-aided diagnosis models without human annotations”的文章,这项文章提出并评估了一种方法,以消除在数字病理学中培训计算机辅助诊断工具的手动注释的需要。该方法包括两个部分:从诊断报告中自动提取语义上有意义的概念,并将其用作弱标记,以训练卷积神经网络(CNN)进行组织病理学诊断。该方法在两家医院提供的3769张临床图像和报告上进行了训练,并在来自私人和公共可用数据集的11000多张图像上进行了测试。将使用自动生成标签训练的CNN与使用手动标签训练的相同架构进行比较。结果表明,该工具仅基于现有临床数据,无需手动注释,即可达到可靠性能。
图片来源:npj Digital Medicine
下图描述了流程中的两个组件。从病理报告中提取有意义的概念依赖于语义知识提取器工具(SKET)。SKET是一种无监督的混合知识提取系统,它将基于规则的专家系统与预训练的机器学习模型结合起来,从自由文本报告中提取标签。图像分类依赖于多示例学习(弱监督框架)CNN,CNN使用SKET提供的弱标签进行训练。CNN产生反映病理报告性质的多标签预测,采用进行多标签预测的网络可以更好地近似组织样本的性质。
分析流程概述。图片来源:npj Digital Medicine
本研究共使用15601张结肠组织病理学图像(4419张图像及来自医院的相应报告,11888张来自公开数据集)。
SKET可以从诊断报告中提取具有语义意义的高质量概念(可用作全视野数字切片的标签),从而取代专家在大规模数据集上创建的手动注释,并大幅减少数据注释所需的时间和工作量。
专家们根据五个类别(癌症、高度发育不良、低度发育不良、增生性息肉和正常)手动标记报告,该任务是一个多标签分类问题,因为每个报告都可以用一个或多个类进行注释。
通过自动分析病理报告以提取弱注释,SKET在注释工作中节省了大量时间。专家平均需要30秒来注释诊断报告,而SKET每秒注释三份以上的报告。因此,SKET节省了病理学家注释报告所需时间的95.7%。预测超过30000个WSI注释数据的时间,所需时间将超过250小时(无中断),而NLP流程需要约2.5小时。SKET从医院的诊断报告中自动提取的弱标签与人工标签匹配,具有高精度。
使用自动生成的标签训练的CNN在
私人数据WSI分类上获得了高性能
使用从报告自动生成的弱标签训练的CNN对于多标签WSIs分类非常有效。CNN使用内部测试分区在WSI级别进行评估,包括来源于Catania和Radboudumc的WSI以及人工创建的报告注释。
CNN使用MIL框架进行训练,进行多标签预测。它分为五类(癌症、高度发育不良、低度发育不良、增生性息肉和正常)。CNN使用SKET从诊断报告中提取的概念作为弱标签进行训练,因此没有任何人类像素注释。
将使用自动提取的弱标签训练的CNN与使用手动弱标签训练的相同架构的CNN进行比较,结果表明使用自动和手动弱标签的性能没有统计学显著差异。
CNN使用自动生成的标签进行训练
在公开数据集上具有良好的通用性
CNN使用从报告中自动生成的弱标签进行训练,证明了其在来自不同医疗中心的异质图像上进行良好概括的能力。
公共可用测试分区包括从七个公共可用数据集收集的11888个图像。CNN在公开可用的数据集上达到了良好的性能,与私有数据测试集的结果相当。所获得的结果令人鼓舞,因为它们表明,CNN可以推广到外部异构数据集,尽管其性能略低于私有数据,保证了外部数据集的竞争性能。
CNN性能概述。图片来源:npj Digital Medicine
尽管存在一些性能差异,但使用从报告中自动生成的弱标签训练的CNN显示了对这种自动提取过程引入的错误的鲁棒性。
为了验证这一结果,分别使用自动和手动弱标记训练的模型的CNN在被SKET错误标记的CNN的WSI上进行评估。SKET错误标记了来自Catania的25%的WSI(1704中的421个)和来自Radboudumc的15%的WSIs(2065中的306个)。结果显示,使用自动和手动生成的弱标签训练的CNN的差异无统计学意义。
因此,SKET引入的噪声有限地影响了CNN数据上的训练过程,证明了基于CNN的方法对错误标记的WSI的鲁棒性。
对标签错误的鲁棒性。图片来源:npj Digital Medicine
使用自动生成的标签训练的CNN
导致中等性能的patch-level分类
使用从报告自动生成的弱标签训练的CNN在patch-level分类上达到中等性能。
patch-level分类是一项具有挑战性的任务,考虑到模型在没有任何像素注释的情况下进行训练,通过多实例学习框架优化图像级预测。使用来自Catania数据集和AIDA数据集在patch-level获得了中等性能(即根据定义,κ-分数介于0.40和0.60之间),使用人工注释和自动生成的用于训练CNN的注释获得的结果之间没有显著差异。
图a显示了CNN在patch-level分类中的混淆矩阵和ROC曲线。在Catania数据上,该模型非常有效地将癌症和正常分类(超过一半的样本分类良好),而对于其他类别,尤其是高级发育不良类别,该模型表现出较低的性能。在AIDA数据上,该模型也以良好的性能分类了大多数类。
patch和WSI level分类模型的定量评估。图片来源:npj Digital Medicine
CNN attention model
识别相关组织区域
使用从报告中自动提取的标签训练的CNN的最高关注值是与预测类相关的区域。
注意网络对每个类的patch进行加权,以便具有最高注意力值的patch对全局预测贡献更大。在下图中,由网络分配给内部测试分区的权重被可视化为热图。热图分析表明,每个类别的注意模型最集中的区域包括病理学家在像素注释中用相应类别注释的补丁。因此,注意网络更加重视包括相关patch在内的区域,导致CNN预测正确的全局诊断。
热图与人工注释的比较。图片来源:npj Digital Medicine
本文提出了一种方法,以限制对人工注释的需求,以培训数字病理学中的计算机辅助诊断工具。该方法包括两个组件,由SKET和CNN表示,允许自动从病理学家报告中提取有意义的语义概念,并将其用作高分辨率临床病理图像的弱标签,而无需任何人工监督。
该方法通过对私人数据(医院提供的结肠报告和WSIs)进行培训,并对私人数据的不可见子集和外部公共可用数据进行测试来评估。私人和公共可用数据高度异质性,从九个不同来源收集。结果表明,在数字病理学的背景下,可以使用临床自由文本报告和图像来培训计算机辅助诊断工具,而无需任何监督。本文中给出的模型显示了泛化的能力,通过对来自高度异质的公开可用数据集的11852张图像进行测试所获得的结果证明了这一点,尽管总体性能低于在私有数据上获得的性能。
此外,所提出的方法可以应用于其他医学领域,如磁共振成像或计算机断层扫描,并且可以采用不同的算法来提取标签并对图像进行分类。