本研究首先基于独热编码特征建立了一个基线模型,并且使用了两种特征工程方法来处理出院诊断和程序文本,建立了基于序列特征和序列分组特征两类特征的模型。其次,使用LightGBM作为分类器建立多分类预测模型,并使用网格搜索和5倍交叉验证来选择最佳超参数,包括估计器数量、最大深度、特征分数和类权重。
本研究采用了准确率(ACC,accuracy)、宏观平均召回率(Macro-R,macro- averaged recall)、宏观平均精度(Macro-P,macro-averaged precision)和宏观平均F1(Macro-F1,macro-averaged F1)来评价模型性能,同时使用Macro-F1作为选择最佳模型的主要指标。
此外,选取了最具代表性的编码I20.803和编码Q21.001的最优模型采用了SHAP方法来对模型进行解释。