社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

一觉醒来,机器学习又0实验喜提IF6.2!NHANES+SHAP建模强强联手,青岛大学沈晓丽团队纯生信玩出新高度!临床人快码住!

生信图书馆 • 5 天前 • 40 次点击  

听说最近机器学习+SHAP建模+数据库的组合在科研圈里火了起来?馆长最近也收到了不少关于这个话题的咨询,看来大家都想抓住这个热点。确实,这种组合的创新性很强,技术含量也不低,目前还没有被广泛使用,所以发表文章的潜力很大!如果你有一定的生物信息学基础,不妨尝试一下,能为你的研究添彩不少。不过,对于初学者来说,这个技术可能会有些难度,但别担心,馆长背后有专业的生物信息学分析团队,十年经验积累,随时准备帮助你解决问题。最近有篇新文章就是利用这种组合,纯生信分析就发到了2区6分+的期刊,性价比超高,思路也很新颖,值得大家模仿复现!一起来看看吧~

1、精准的数据挖掘与模型构建:这项研究巧妙地利用了NHANES数据库,通过机器学习方法构建了一个可解释的预测模型。研究团队不仅筛选出了与CVD风险密切相关的重金属特征变量,还通过随机森林、决策树和AdaBoost等多种机器学习算法,构建了六个预测模型。这种综合运用多种算法的方法,不仅提升研究的精准性和可信性,还体现该预测模型研究向临床应用的转化的潜力之大。

2、深度的模型解释与应用:研究中不仅关注模型的预测能力,还通过特征重要性分析、部分依赖图(PDP)和SHAP值等方法,增强了模型的可解释性。这些方法不仅帮助研究者深入理解了模型的决策过程,还为临床提供了个性化的患者护理和资源分配的宝贵见解。这种深度的模型解释和应用,不仅提升了研究的科学价值,还无疑会使其在众多研究成果中脱颖而出,也更容易获得审稿人的青睐哦!

PS:机器学习结合SHAP建模的流行趋势已经开始显现,对于想要抓住这一机遇的研究者来说,模仿这篇文献的思路再发表一篇论文是个不错的选择。有想法的研究者应该尽快行动起来!如果你在课题设计上缺乏思路,不妨来找馆长帮忙,可以满足你的各种需求,欢迎随时咨询!

定制生信分析

生信服务器

加好友备注“99”领取试用


题目:预测暴露于重金属的成年人患心血管疾病的风险:可解释的机器学习

杂志:Ecotoxicology and Environmental Safety

影响因子:IF=6.2

发表时间:2024年12月

研究背景

重金属,如铅、汞、镉及砷,因工业化和城市化加速被释放到环境中,污染农作物,影响民众健康。重金属暴露与心血管疾病风险增加相关,但现有信息不足以临床应用。本研究旨在使用机器学习算法构建CVD预测模型,结合可解释AI技术,提高临床对重金属暴露相关风险的理解。

数据来源

本研究的数据来源于美国国家健康与营养调查(NHANES)的七个连续周期,共涉及71,508名参与者。在排除了20岁以下人群(31,837人)、缺少血液和尿液金属浓度数据的个体(21,818人)以及缺少协变量信息的个体(12,803人)后,最终纳入分析的参与者共有4600人。    

研究思路

本研究首先利用LASSO回归方法筛选与心血管疾病相关的重金属特征变量,然后构建了包括随机森林、决策树、梯度提升决策树、k-最近邻、支持向量机和AdaBoost在内的六种机器学习模型,以预测重金属暴露与心血管疾病之间的关系。接着,通过特征重要性分析、部分依赖图以及SHAP值等解释性方法,提高了模型的可解释性,识别出尿镉、血铅、尿铊和尿钨等关键重金属,并分析了它们对心血管疾病风险的单独和协同影响。(想要生信快速成文,离不了生信服务器的强助攻!尤其是机器学习需要处理大量数据,更离不了生信服务器这个硬装备,需要服务器可以联系馆长,附带一对一技术指导,咨询就享优惠!)

研究结果

1.研究人群的特征

研究纳入了4600名平均年龄49.51岁的成年人(表1),发现10.3%患有心血管疾病(CVD)。研究使用机器学习方法,基于参与者的重金属暴露数据,分析了年龄、性别、种族、教育等特征,结果显示CVD患者中男性比例高,教育程度低,且高血压和糖尿病发病率更高    

表1:研究人群的特征。

2.机器学习模型的比较

研究比较了随机森林(RF)、决策树(DT)、梯度增强决策树(GBDT)、K近邻(KNN)、支持向量机(SVM)和AdaBoost(AB)六种机器学习模型(图1)。基于4600名参与者的数据,分析了模型的AUC值、准确率、精确度和F1分数。结果显示,随机森林模型表现最佳,准确率为90.00%,精确度为0.91,F1分数为0.86。    

图1:六个机器学习模型的ROC。

3.CVD预测模型中的特征重要性分析

研究中使用了随机森林模型来分析影响心血管疾病的因素(图2)。通过特征重要性分析,发现年龄、尿液中的镉(Cd)、血液中的铅(Pb)、尿液中的铊(Tl)和尿液中的钨(W)是预测心血管疾病的五个最重要因素,它们的重要性得分分别为0.131、0.062、0.057、0.051和0.05。这些结果表明,年龄是预测心血管疾病最关键的因素。   

图2:特征变量在射频预测模型中的重要性排名。

4.重要金属和CVD之间的关系

在这项研究中(图3),利用部分依赖图(PDP)分析了尿液中的镉(Cd)、血液中的铅(Pb)、尿液中的铊(Tl)和尿液中的钨(W)四种金属与心血管疾病(CVD)风险的关系。分析发现,尿液Cd、血液Pb和尿液W在较高水平时,CVD风险增加;而尿液Tl在较低水平时,CVD风险降低。具体数据显示,当这些金属浓度在特定范围内时,CVD风险有显著变化。这些结果强调了这些金属在心血管疾病风险预测中的重要性。

图4:探索LMGs评分用于胃癌治疗的潜在用途。

5.重要金属的协同效应

研究了尿液中的镉(Cd)与其他三种金属(铅Pb、铊Tl和钨W)对心血管疾病(CVD)风险的协同影响(图4)。通过部分依赖图(PDP)分析,发现尿液Cd水平在-6.0至-4.5μg/g范围内时,对CVD风险的预测影响最大。结果显示,随着尿液Cd和Pb水平的升高,CVD风险增加,而尿液Cd水平的调节可能对心血管疾病的管理至关重要。

图4:展示了其他三种金属对CVD预测的协同效应。

6.使用SHAP进行模型解释

图5展示了随机森林(RF)模型的SHAP值分析,揭示了年龄、尿液中的镉(Cd)、血液中的铅(Pb)和尿液中的钨(W)对心血管疾病(CVD)风险的正向影响,而尿液中的铊(Tl)则有负向影响。此外,高血压和糖尿病也被识别为增加CVD风险的因素。

图5:CVD预测模型上的SHAP摘要图和单个瀑布图。

文章小结

这篇文章的研究方向真是让人眼前一亮,巧妙地运用了机器学习、SHAP建模以及NHANES数据库,这么简单直接的方法竟然能在高影响力的期刊上获得接近5分的佳绩,这性价比简直太超值了,赶紧把握机会吧!这种基于机器学习的分析流程不仅工作量适中,而且对于熟悉生物信息学的研究者或团队来说,可能只需要几天时间就能完成所有分析工作,如果再借助服务器的计算能力,速度还能更快(需要服务器资源可以联系馆长)。包括写作和投稿在内,大约两个月就能完成一篇论文,一年内发表几篇这样的论文完全有可能!其实复现这些分析其实并不复杂,但是如果真的没有时间亲自操作,也可以寻求馆长的帮助哦!

馆长有话说

馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!

生信分析

方案设计

生信服务器

孟德尔随机化

网络药理学

单细胞测序

临床公共数据库分析

往期推荐

1.IF=26.8!不是吹牛,是真的牛!复旦大学团队:巨噬细胞+单细胞+脂代谢+免疫治疗热点堆堆乐,简直是好吃到不行的国自然全家桶!

2.这本10分纯生信友好刊竟然被我漏掉了!11套数据集+24种机器学习模型,纯生信新思路!看老外如何把机器学习玩出花~

3.中草药提取物携“细胞衰老”登上Nature Aging!老外都开始研究中药了,你还在等什么?


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178797
 
40 次点击