SPJ｜Health Data Science：机器学习与传统统计方法如何融合构建疾病风险预测模型？

以下内容转载自Science合作期刊：

Health Data Science《健康数据科学（英文）》近期发表了一篇题为《Integrating machine learning into statistical methods in disease risk prediction modeling: a systematic review》的系统综述，其总结了全球范围内传统统计方法和机器学习相融合建立疾病预测模型的研究现状。

该研究发现，疾病融合模型的相关研究虽然有限，但一些研究已经显示出融合模型优于单一模型的潜力。该研究为不同场景下融合方法的选择提供了参考。未来的研究重点应放在融合策略的完善和外部验证上。

作|者|团|队|介|绍

章萌

博士研究生

北京大学公共卫生学院流行病与卫生统计学系

孙凤

研究员

北京大学公共卫生学院流行病与卫生统计学系

疾病风险预测使用多个预测变量来估计在特定时间内疾病发生的风险或个体某临床结局发生的概率，有助于促进疾病的早期识别、干预和管理。传统统计模型是疾病风险预测的常用方法，主要包括Logistic回归、Cox比例风险回归等。统计模型具有明确的统计推断过程，易于实现且具有较好的可解释性，因此具有重要的临床意义且应用广泛。然而，统计方法的模型假设在实践中可能并不成立，从而降低了预测的准确性。随着人工智能的发展，其分支机器学习创建了新的可靠有效的方法，促进了非结构化数据和纵向数据在疾病预测中的应用。机器学习对数据结构和模型假设的要求和限制相对较低，因此更加灵活。

实际上，有时研究者无法知晓在不同场景下哪种方法最适合应用的数据，单一的方法也可能难以识别复杂大数据下所有具有潜在价值的信息。模型的误用会导致预测准确性下降和错误预测的增加。既往研究发现，相比于单一模型，构建和组合多个模型可以获得更好的性能。融合模型通过多种方式将多个模型合并使用，以给出最终的预测结果。将机器学习有效地整合到传统统计方法中，可能会提高预测的准确性，帮助建立在不同场景下具有普适性和稳定性的预测模型。

本研究系统检索了全球机器学习和传统统计方法融合建立疾病预测模型的研究，共纳入21项研究。其中5项研究为诊断模型，16项研究预测了疾病的发生或预后。在大多数研究中，融合模型的AUROC超过0.75，优于单一的统计方法和机器学习。预测模型主要分为两大类：回归模型（最终预测输出为连续变量）和分类模型（最终输出为分类变量）。其中回归模型的融合策略主要包括以下三类：简单统计（对不同方法的输出进行简单的统计汇总）、加权统计（在简单统计的基础上使用模型评价指标等来确定模型权重，最终产生标准化的风险概率输出）、堆叠（Stacking）。其中堆叠在融合模型中占较大比例，使用这种方法构建的模型通常由两层或多层组成。第一层中一些统计方法和/或机器学习被分别构建进行预测，然后将这些预测结果输入到第二层进行最终预测。堆叠可用于超过100个预测因子的情况，并且需要相对较大的训练样本量。

与回归模型类似，分类模型主要包括以下四种融合策略：多数投票（将与每个类标签相关的投票汇总，并输出票数最多的一个类作为候选类）、加权投票（在前一个方法的基础上同时考虑权重）、堆叠和模型选择。模型选择指首先分别使用统计方法和机器学习进行预测，对于两种方法预测结果不一致的个体，采用决策树等新方法在统计方法和机器学习之间进行选择，以确定最终使用的方法。后两种方法模型构建所使用的样本量均高于前两种方法。

该研究全面综述了将机器学习与传统统计方法融合构建临床预测模型的现状。融合建模在提高临床预测准确性和稳健性方面具有一定潜力，但在实际应用中，研究者需根据具体的场景和需求选择合适的融合策略。未来研究需进一步解决融合建模所面临的技术挑战，完善报告标准，开发针对不同场景的更高效、更通用的融合模型，以有效地服务于临床决策。

往期推荐

突破临床试验瓶颈：AI提升预测准确性

脑网络动态解码：多模态数据驱动的脑网络模型在解析大脑动力学与医学领域应用的突破与展望

COVID-19对急性肾脏疾病的时变影响：匹配队列研究与孟德尔随机化分析

社会经济地位与年龄相关性黄斑变性风险有关

版权信息
本文由《健康数据科学（英文）》编辑部负责翻译、编写或约稿。中文内容仅供参考，所有内容请以英文原版为准。文中除标明来源的图片，其余均来自网络公开渠道，不能识别其来源，如有版权争议，请联系公号方。欢迎转发至朋友圈，如需转载，请联系hds@bjmu.edu.cn。未经授权的翻译是侵权行为，版权方保留追究法律责任的权利。

期刊简介

Health Data Science（中文刊名《健康数据科学（英文）》）是由北京大学主办、北京大学健康医疗大数据国家研究院承办、北京大学信息技术高等研究院（浙江）协办的全新英文科技期刊，作为Science合作期刊以开放获取的出版形式全球范围内发行。中国工程院院士、北京大学健康医疗大数据国家研究院院长詹启敏院士担任主编。期刊于2020年7月入选“中国科技期刊卓越行动计划”高起点新刊项目，2021年2月经国家新闻出版署批准取得国内统一连续出版物号（CN10-1749/R）。现已被PubMed、Scopus、CNKI、Google Scholar、开放获取期刊目录（Directory of Open Access Journals，简称DOAJ）、Inspec和CABI Global Health收录，并被正式接受为国际出版伦理委员会会员（COPE member）。

期刊官网：

https://spj.sciencemag.org/journals/hds/

编辑部公邮：

HDS@hsc.pku.edu.cn

Data for Better Health｜数促健康、智赋医学