Py学习  »  机器学习算法

YYDS!国产CHARLS数据库+机器学习!学到就是赚到!北京护理学院王翠丽团队教你轻松拿捏SCI!

生信图书馆 • 5 月前 • 338 次点击  

叮咚!阿星又来啦,阿星最近翻遍各个期刊,给大家带来了一本“独门秘籍”-公开数据库+机器学习就可以轻轻松松get SCI 论文,而且50天见刊,不用再苦苦回答大佬们提出的意见,非常适合想要的同学们!

阿星今天给大家带来的这一篇SCI论文,是发表在International Journal Of Medical Informatics的一篇文章,来自北京护理学院王翠丽教授团队。整篇文章只需要CHARLS数据库,以及4种机器学习方法就可以轻松拿下,简直是so easy!现在,就让阿星带大家一起去揭秘一下吧!

1.这项研究首次基于大规模队列研究,利用四种机器学习方法开发了一个可以用于识别高风险老年人(早期)衰弱的临床支持系统。

2.本项研究综合运用了逻辑回归、随机森林、支持向量机和XGBoost等多种算法,并通过参数调优和交叉验证来优化模型,提高了预测的准确性。(PS:想通过挖掘临床公共数据库来完成KPI的朋友或者面临毕业还没有文章的同学快来找阿星呀!)

定制生信分析

云服务器租赁

加好友备注“66”领取试用

题目:一个初步临床支持系统的开发和验证,用于测量社区居住的老年人发生2年(早期)衰弱的概率:一项前瞻性队列研究

杂志:International Journal Of Medical Informatics

影响因子:IF=4.9

发表时间: 2023年9月

研究背景

人口老龄化已成为一种全球现象,中国是老年人口最多的国家。衰弱是一种与增龄相关的老年综合征,常见于高龄和共病的老年人,表现为对应激的应对能力降低, 发生跌倒、失能和死亡的风险增加,给我国的医疗系统和社会造成了沉重的负担。(早期)衰弱是一个可逆的过程, 预防和干预(早期)衰弱症或衰弱症是保持老年人独立性和生活质量的最有效手段。因此早期识别衰弱高危人群并有效干预是延缓和降低老年人疾病发生的重要手段。因此本研究基于中国健康退休纵向研究(CHARLS)数据,基于多种机器学习方法,构建了一个(早期)衰弱预测系统,帮助预测社区老年人在未来两年内成为(早期)衰弱的概率,从而促进识别高风险的(早期)衰弱人群。

数据来源

数据来自2013年和2015年中国健康与退休纵向研究(CHARLS),CHARLS每两年进行一次(2011年、2013年、2015年、2018年),最近的一次是在2018年,但未进行体力测量,因此无法评估(早期)衰弱状态。因此,作者使用了2013年和2015年的数据,通过排除60岁以上参与者、衰弱程度不足的参与者,以及死亡参与者,最终有2802名参与者作为分析样本。

图1 技术路线

研究思路

首先从CHARLS中获取数据,排除年龄在60岁及以上的参与者。同时利用已构建和验证的身体衰弱表型量表,排除衰弱程度不足的参与者和基线时已有(早期)衰弱表现的参与者,选择健康的老年人基线样本。同时排除在2015年,死亡的参与者与衰弱测量不足的参与者,为了防止可能的过拟合问题,采用保留法将分析样本随机分为两组,比例为8:2,最终得到构建预测模型的训练队列(n = 2241)和验证模型性能的内部验证队列(n = 561)。基于最小绝对收缩和选择算子(LASSO)选择14个重要预测变量来构建(早期)衰弱预测模型重要的预测变量。使用逻辑回归(LR)、随机森林(RF)、支持向量机(SVM)和极端梯度提升(XGBoost)构建(早期)衰弱预测模型。通过CHARLS 2011-2013调查使用时间验证方法对所有模型进行外部评估。

研究结果

1. 老年人 (早期)衰弱的预测性能

在派生队列中,随机森林RF和XGBoost对(早期)衰弱显示出可接受的区分能力,而SVM和LR的AUC值较低(表1)。RF与其他模型之间,以及XGBoost与其他模型之间存在显著的AUC差异,(图2A和表2)。所有模型的整体预测表现都较为理想(表1),并且在风险阈值设定为0.15至0.80时,所有模型相较于默认策略都显示出更好的净收益(图3A)。

在内部验证队列中,XGBoost显示出可接受的区分能力(表1)而XGBoost与LR之间以及XGBoost与RF之间存在显著的AUC差异,但其他模型之间没有显著差异(图2B和表2)。所有模型的临床实用性(图3B)均较为理想,但只有XGBoost在预测概率与实际观测值之间有良好的一致性。

表1 14个变量的4个(早期)衰弱性预测模型的性能比较

图2 派生队列(A)、内部验证队列(B)和外部验证队列(C)中4种包含14个变量的老年人事件(早期)衰弱预测模型的ROC曲线

表2 用Delong检验Z分比较4种(早期)衰弱预测模型14个变量的AUC

图3 派生队列(A)、内部验证队列(B)和外部验证队列(C) 4种包含14个变量的老年人偶发(早期)衰弱预测模型的决策曲线分析

而外部验证数据集在数据集在数量和相似性方面都较为充分(图4),表明结果非常可靠。所有模型均显示出较平均的区分能力和较差的校准度,但具有可接受的整体预测表现和临床实用性(表1;图3C;图4)。

图4 外部表现图

2. 老年人新发(早期)衰弱的14个预测变量的重要性

在RF和XGBoost模型中,腰围、年龄和认知功能是事件(前)虚弱的前3个重要预测因素(图5)。    

图5 RF(A)和XGBoost(B) 14变量预测模型对老年人事件(早期)衰弱的变量重要性

文章小结

惊不惊喜,意不意外?看完文章的小伙伴们是不是都惊呆了,仅仅2表4图就可以get一篇SCI论文,你还在等什么呢?CHARLS+机器学习就是这么牛!分析并不复杂,单纯靠机器学习和选题就可以打造出一篇SCI,阿星希望这篇文章能给大家打开一个新的大门,结合数据库,利用机器学习,既可以省经费,又可以轻轻松松发SCI,你还在等什么呢?有兴趣的小伙伴欢迎扫码咨询阿星哦!

· 阿星有话说 ·

生信星持续为大家带来最新生信思路,更多创新性分析思路请点击下方链接。想复现这种思路或者定制更多创新性思路欢迎直接call阿星,生信星团队竭诚为您的科研助力!

生信分析服务

免费思路评估

服务器租赁

扫码咨询阿星

往期推荐

1. 警惕!中科院老牌一区top顶刊被科睿唯安“官方预警(On Hold)”!!!这16本预警期刊也被镇压!

2. 高分文章第一步,人工智能来相助!机器学习与代谢组学的“热门CP”上了Nature Communications的高分车!

3. 叮!更适合临床医生的发文秘笈已送达!温州医科大学团队”肠道微生物群+反向孟德尔+贝叶斯共定位“套路请及时查收!过时不候!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172200
 
338 次点击