本研究展示了如何使用基于特征选择的梯度提升机器学习算法(XGBoost)创建一个具有良好区分度、校准度和临床获益的心脏手术后死亡风险预测模型。这是迄今为止最大规模的国家级研究,并在我们之前工作的基础上进行了深入研究。
我们从61个变量开始,使用自动特征选择开发了最终模型。该模型的开发旨在优化区分度,不仅在AUC和F1评分方面高于EuroSCORE II (European System for Cardiac
Operative Risk Evaluation II)和之前的研究,而且还表现出更好的校准度和临床实用性。该模型在所有风险十分位数中都显示出良好的校准度。正如预期的那样,大多数接受手术的患者风险低于10%。然而,在高风险患者中,XGBoost-23模型继续表现良好。决策曲线分析显示,在阈值概率60%以下,使用XGBoost-23模型有明显的净获益,这表明如果使用该模型,更多患者将能适当地接受手术。在少数高风险患者中改善性能变得尤为重要,特别是在考虑为几乎没有其他选择的患者(如主动脉夹层患者)进行手术时,或在常规对高风险病例进行手术的医疗单位中。审查那些被拒绝接受手术的患者的模型表现将会很有趣,但这些数据并未常规收集。
值得注意的是,我们没有寻求任何尚未常规收集的信息,尽管之前已有许多额外的风险因素被提出。我们还对最终的XGBoost模型进行了简化,以追求简洁性并鼓励临床医生今后使用。无论使用哪种建模工具,患者、围手术期因素与死亡之间的关系本质上都是复杂的。XGBoost等替代机器学习模型的优势在于,它们几乎不需要模型开发者的输入,并且具有内在的累加性,可以使用额外信息来调整模型,而无需从头重新运行算法。然而,这种模型很难用标准公式表示,因而不太被某些人信任。对于表现最佳的模型(XGBoost-23),我们描述了变量重要性,这应该有助于更广泛的外科社区更好地理解和接受。我们正在开发一个网站来托管该模型,并允许其他人进行前瞻性评估。逻辑回归的优势在于它被科学界广泛理解,发布系数允许外部验证。然而,需要对解释变量和响应变量之间的交互作用和非线性关系进行建模,以优化逻辑回归模型。此外,添加新结果还需要重新运行模型开发过程。基于集成树的算法,特别是梯度提升算法,最近被越来越频繁地使用。我们的数据库是研究规模最大的,只有其他3篇论文的样本量超过10,000例。大多数研究表明,与常用模型和重新训练的逻辑回归模型相比,使用替代机器学习算法在模型性能方面有轻微改进。有趣的是,Ong等人的研究也显示,在本地数据上训练模型时,区分度有所提高。虽然这是直观的,但它强化了使用本地变量或像我们所做的那样使用医院代码的必要性。先前的评估已经表明,模型性能因医院和所进行的手术而异。尽管EuroSCORE团队主张使用医院的风险调整死亡率比(risk-adjusted
mortality ratio,RAMR),但我们认为从一开始就将医院代码纳入最终模型会增加使用的便利性。Zeng等也对不同梯度提升算法与各种特征选择方法进行了非常全面的比较研究,但发现它们与重新训练的逻辑回归模型之间的性能差异很小。我们的研究独特之处在于除了进行区分度和校准度评估外,还进行了决策曲线分析。我们认为这一点至关重要,因为提高临床实用性是预测建模的最终目标。一些变量与已发表的评分系统中考虑的变量相似——年龄、肌酐清除率、纽约心脏协会评分、紧急程度、术前危重状态、既往手术史、左心室功能、外周血管疾病和肺部疾病。其他变量则被更具颗粒度的类似变量所替代,如所有糖尿病管理策略、所进行的手术类型,以及区分二尖瓣修复和置换。新的风险因素包括既往心肌梗死(不仅仅是近期心肌梗死)、植入的桥血管数量、术前心律、第一操作者级别、基础代谢指数、术前卒中、主动脉弓手术和机械支持需求。此外,该模型还考虑了既往瓣膜手术和既往冠状动脉旁路手术患者之间的风险差异。随着更多基于人工智能的搜索引擎的出现,公众对这些过程的认识和接受度正在提高。我们相信这种趋势应该扩展到心脏外科领域。随着服务器容量的增加和最终的前瞻性数据分析,我们希望能够进一步评估和微调这个模型。对发病率(如卒中、心肌梗死)、资源利用(如住院时间、干预成本)和介入手术的风险预测的重要性对患者咨询和资源规划也有明显益处。未来使用的任何模型都需要准确、易于使用、避免过度拟合,并定期重新校准。
A
Machine Learning Algorithm-Based Risk Prediction Score for in-Hospital/30 Day
Mortality after Adult Cardiac Surgery
Shubhra Sinha
英国布里斯托大学转化医学、心脏学院心外科
European
Journal of Cardio-Thoracic Surgery 2024Doi:10.1093/ejcts/ezae368