社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

通过临床可解释的机器学习进行初级诊断的自动ICD编码

深度学习辣汤小组 • 8 月前 • 228 次点击  

深度学习辣汤小组文献阅读学习之一百一十七篇

通过临床可解释的机器学习进行初级诊断的自动ICD编码

DeepLearning 深度学习辣汤小组

 2023/7/19 


2021年,来自中国医学科学院和北京协和医学院阜外医院信息中心的Diao Xiaolin等人基于LightGBM开发了用于国际疾病分类第十版(ICD-10,international classification of disease, tenth version)编码自动初级诊断的多分类预测模型。并在International Journal of Medical Informatics(IF:4.73 医学2区)期刊上发表题为“Automated ICD coding for primary diagnosis via clinically interpretable machine learning”的文章。

DOI:

https://doi.org/10.1016/j.ijmedinf.2021.104543


一、研究背景

世界卫生组织提出的国际疾病分类(ICD,international classification of disease)是全球卫生保健提供者用于对疾病和病情进行分类的共同语言。精确地分配编码对于医疗账单、健康资源分配和医学研究的准确性至关重要。ICD编码通常由专业临床编码员在患者就诊时进行分配,但是,手动进行ICD编码耗时且容易出错,这使得编码的质量和生产效率成为实践中的关注点。因此,引入了计算机辅助临床编码(CAC,computer-assisted clinical coding)以提高编码的准确性和效率。初级诊断编码是分配给患者就诊时所有诊断编码中最重要的一个。它在ICD编码中起着关键作用,受到越来越多的关注。在国际上,学术界已经进行了大量关于CAC的研究,然而,大多数现有研究仅关注所有需要的诊断编码的自动分配,而不考虑编码之间的优先级,目前,国内自动化初级诊断编码的研究相当有限。

本研究旨在开发一个用于初级诊断ICD编码的机器学习模型,并验证其在临床编码辅助方面的潜力。

二、数据集

本研究采用与心血管疾病相关的6位ICD-10编码,数据来自全球最大的心血管中心阜外医院,以阜外医院2019年1月1日至2020年12月31日的住院患者为研究对象,共纳入74880份入院记录。从出院小结中收集出院诊断文本和出院程序文本。这些文本是半结构化的,由几个不同的临床描述组成,每个描述都是一个短句或一个句子。收集临床编码员分配的初级诊断ICD-10编码,包含767个唯一编码。由于疾病的稀缺性,许多编码只分配给少数入院患者,本研究选择频率大于30的编码进行研究。最终,纳入了71709例入院患者,其中66797例为独特患者,对应168个ICD-10代码。统计数据总结如表1所示

三、方法

本研究首先基于独热编码特征建立了一个基线模型,并且使用了两种特征工程方法来处理出院诊断和程序文本,建立了基于序列特征和序列分组特征两类特征的模型。其次,使用LightGBM作为分类器建立多分类预测模型,并使用网格搜索和5倍交叉验证来选择最佳超参数,包括估计器数量、最大深度、特征分数和类权重。

本研究采用了准确率(ACC,accuracy)、宏观平均召回率(Macro-R,macro- averaged recall)、宏观平均精度(Macro-P,macro-averaged precision)和宏观平均F1(Macro-F1,macro-averaged F1)来评价模型性能,同时使用Macro-F1作为选择最佳模型的主要指标。

此外,选取了最具代表性的编码I20.803和编码Q21.001的最优模型采用了SHAP方法来对模型进行解释。

四、结果与结论

如表2所示,基于序列分组特征的最佳预测模型在测试阶段表现最好,ACC和Macro-F1分别为95.2%和88.3%。模型之间的比较证明了序列信息和分组策略在提高模型方面的准确性。通过网格搜索和5倍交叉验证,确定了基于LightGBM的多分类预测模型的最佳超参数,如表3所示,估计器数量为200,最大深度为6,特征分数为0.6,类权重为“balanced”。如图1所示,按频率将编码分为5组,基于LightGBM的多分类评估最优模型在每个频率上都表现良好,特别是在频率超过100的编码上,Macro-F1分别达到了91.1%,93.5%和94.7%,这表明模型Macro-F1与编码的频率大小成正相关。如图2所示,编码I20.803最优模型的6个最重要特征是与缺血性心脏病或冠状动脉相关的诊断和手术特征。编码Q21.001最优模型的4个最重要的特征是与先天性心脏病相关的特征。

综上所述,在中国背景下本研究开发了一种在心血管疾病相关初级诊断 ICD-10 编码方面表现良好的机器学习模型。所提出的模型有可能帮助临床编码人员提高中国住院环境中的编码效率和质量。该模型的结果是可解释的,并且已证明其在中国背景下对自动初级诊断编码的有效性。

表1:统计数据总结

表2:基线模型、基于序列特征的模型和基于序列分组特征的模型的性能

表3:多分类预测模型的超参数范围及最优超参数

图1:多分类预测模型在编码不同的频率上的性能

图2:两个ICD编码最优模型的特征重要性图。左边是编码I20.803,右边是编码Q21.001


Pepper soup transformed by: Jin Daipeng




  //  

深度学习辣汤AI小组由徐州医科大学以及徐州医科大学附属医院一群热爱人工智能的小伙伴们组成,欢迎大家跟我们交流学习!


扫码关注我们

欢迎加入我们!

成员微信号:cy2011mcu

添加好友时请备注:

单位-科室-姓名-研究方向


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172945
 
228 次点击