![](http://mmbiz.qpic.cn/mmbiz_png/vdJbOia6pHx4d3ZGQH5OhL9RHEIZBWNS0MSu5sybnBcFl1bXXP8Hib3PZnk65qA3m3DZIOib1Y177icZpzpib4jvbtA/640?wx_fmt=png&from=appmsg)
听说最近机器学习+SHAP建模+数据库的组合在科研圈里火了起来?馆长最近也收到了不少关于这个话题的咨询,看来大家都想抓住这个热点。确实,这种组合的创新性很强,技术含量也不低,目前还没有被广泛使用,所以发表文章的潜力很大!如果你有一定的生物信息学基础,不妨尝试一下,能为你的研究添彩不少。不过,对于初学者来说,这个技术可能会有些难度,但别担心,馆长背后有专业的生物信息学分析团队,十年经验积累,随时准备帮助你解决问题。最近有篇新文章就是利用这种组合,纯生信分析就发到了2区6分+的期刊,性价比超高,思路也很新颖,值得大家模仿复现!一起来看看吧~
1、精准的数据挖掘与模型构建:这项研究巧妙地利用了NHANES数据库,通过机器学习方法构建了一个可解释的预测模型。研究团队不仅筛选出了与CVD风险密切相关的重金属特征变量,还通过随机森林、决策树和AdaBoost等多种机器学习算法,构建了六个预测模型。这种综合运用多种算法的方法,不仅提升研究的精准性和可信性,还体现该预测模型研究向临床应用的转化的潜力之大。
2、深度的模型解释与应用:研究中不仅关注模型的预测能力,还通过特征重要性分析、部分依赖图(PDP)和SHAP值等方法,增强了模型的可解释性。这些方法不仅帮助研究者深入理解了模型的决策过程,还为临床提供了个性化的患者护理和资源分配的宝贵见解。这种深度的模型解释和应用,不仅提升了研究的科学价值,还无疑会使其在众多研究成果中脱颖而出,也更容易获得审稿人的青睐哦!
PS:机器学习结合SHAP建模的流行趋势已经开始显现,对于想要抓住这一机遇的研究者来说,模仿这篇文献的思路再发表一篇论文是个不错的选择。有想法的研究者应该尽快行动起来!如果你在课题设计上缺乏思路,不妨来找馆长帮忙,可以满足你的各种需求,欢迎随时咨询!
![](http://mmbiz.qpic.cn/mmbiz_png/FX4yMLZzb92Y0ibZTLevSchyic1W2fk1oaQZ5KSFh9xw4G44hLBjhDXc4wwYqTrLKxVEia33I1SQRTfBsQxhpTx3A/640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1)
题目:预测暴露于重金属的成年人患心血管疾病的风险:可解释的机器学习
杂志:Ecotoxicology and Environmental Safety
影响因子:IF=6.2
发表时间:2024年12月
研究背景
重金属,如铅、汞、镉及砷,因工业化和城市化加速被释放到环境中,污染农作物,影响民众健康。重金属暴露与心血管疾病风险增加相关,但现有信息不足以临床应用。本研究旨在使用机器学习算法构建CVD预测模型,结合可解释AI技术,提高临床对重金属暴露相关风险的理解。
数据来源
本研究的数据来源于美国国家健康与营养调查(NHANES)的七个连续周期,共涉及71,508名参与者。在排除了20岁以下人群(31,837人)、缺少血液和尿液金属浓度数据的个体(21,818人)以及缺少协变量信息的个体(12,803人)后,最终纳入分析的参与者共有4600人。
研究思路
本研究首先利用LASSO回归方法筛选与心血管疾病相关的重金属特征变量,然后构建了包括随机森林、决策树、梯度提升决策树、k-最近邻、支持向量机和AdaBoost在内的六种机器学习模型,以预测重金属暴露与心血管疾病之间的关系。接着,通过特征重要性分析、部分依赖图以及SHAP值等解释性方法,提高了模型的可解释性,识别出尿镉、血铅、尿铊和尿钨等关键重金属,并分析了它们对心血管疾病风险的单独和协同影响。(想要生信快速成文,离不了生信服务器的强助攻!尤其是机器学习需要处理大量数据,更离不了生信服务器这个硬装备,需要服务器可以联系馆长,附带一对一技术指导,咨询就享优惠!)
研究结果
1.研究人群的特征
研究纳入了4600名平均年龄49.51岁的成年人(表1),发现10.3%患有心血管疾病(CVD)。研究使用机器学习方法,基于参与者的重金属暴露数据,分析了年龄、性别、种族、教育等特征,结果显示CVD患者中男性比例高,教育程度低,且高血压和糖尿病发病率更高。
![](http://mmbiz.qpic.cn/mmbiz_png/FX4yMLZzb92Y0ibZTLevSchyic1W2fk1oaYuEvA6b5dRia5BFawJibUicq7hmDiamVF2KVCtzicm370RBYPEBtEVpZPlQ/640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1)
表1:研究人群的特征。
2.机器学习模型的比较
研究比较了随机森林(RF)、决策树(DT)、梯度增强决策树(GBDT)、K近邻(KNN)、支持向量机(SVM)和AdaBoost(AB)六种机器学习模型(图1)。基于4600名参与者的数据,分析了模型的AUC值、准确率、精确度和F1分数。结果显示,随机森林模型表现最佳,准确率为90.00%,精确度为0.91,F1分数为0.86。
![](http://mmbiz.qpic.cn/mmbiz_png/FX4yMLZzb92Y0ibZTLevSchyic1W2fk1oa0GBDyBaugAAxUtUB8yvZELdicXQP2E2NdrNqvfLUPN4HFST0TEt1SGQ/640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1)
图1:六个机器学习模型的ROC。
3.CVD预测模型中的特征重要性分析
研究中使用了随机森林模型来分析影响心血管疾病的因素(图2)。通过特征重要性分析,发现年龄、尿液中的镉(Cd)、血液中的铅(Pb)、尿液中的铊(Tl)和尿液中的钨(W)是预测心血管疾病的五个最重要因素,它们的重要性得分分别为0.131、0.062、0.057、0.051和0.05。这些结果表明,年龄是预测心血管疾病最关键的因素。
![](http://mmbiz.qpic.cn/mmbiz_png/FX4yMLZzb92Y0ibZTLevSchyic1W2fk1oaibhJ34jicHaCAeAAmVpfHY4dHWQtdDuXsdQUwtNK75gPMrEyFo6duFVQ/640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1)
图2:特征变量在射频预测模型中的重要性排名。
4.重要金属和CVD之间的关系
在这项研究中(图3),利用部分依赖图(PDP)分析了尿液中的镉(Cd)、血液中的铅(Pb)、尿液中的铊(Tl)和尿液中的钨(W)四种金属与心血管疾病(CVD)风险的关系。分析发现,尿液Cd、血液Pb和尿液W在较高水平时,CVD风险增加;而尿液Tl在较低水平时,CVD风险降低。具体数据显示,当这些金属浓度在特定范围内时,CVD风险有显著变化。这些结果强调了这些金属在心血管疾病风险预测中的重要性。
图4:探索LMGs评分用于胃癌治疗的潜在用途。
5.重要金属的协同效应
研究了尿液中的镉(Cd)与其他三种金属(铅Pb、铊Tl和钨W)对心血管疾病(CVD)风险的协同影响(图4)。通过部分依赖图(PDP)分析,发现尿液Cd水平在-6.0至-4.5μg/g范围内时,对CVD风险的预测影响最大。结果显示,随着尿液Cd和Pb水平的升高,CVD风险增加,而尿液Cd水平的调节可能对心血管疾病的管理至关重要。
![](http://mmbiz.qpic.cn/mmbiz_png/FX4yMLZzb92Y0ibZTLevSchyic1W2fk1oaf0Gx96ibODq5TBiaLKicWQA0JzhGpmvQxruf0vPJ7jfA2Q586aiaq1WNicA/640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1)
图4:展示了其他三种金属对CVD预测的协同效应。
6.使用SHAP进行模型解释
图5展示了随机森林(RF)模型的SHAP值分析,揭示了年龄、尿液中的镉(Cd)、血液中的铅(Pb)和尿液中的钨(W)对心血管疾病(CVD)风险的正向影响,而尿液中的铊(Tl)则有负向影响。此外,高血压和糖尿病也被识别为增加CVD风险的因素。
![](http://mmbiz.qpic.cn/mmbiz_png/FX4yMLZzb92Y0ibZTLevSchyic1W2fk1oa6t6zoU9GrXLombTwOh1nFnykZoEHlKqxRhj8KqGMuZfK7Au2CMVKJw/640?wx_fmt=png&tp=wxpic&wxfrom=5&wx_lazy=1&wx_co=1)
图5:CVD预测模型上的SHAP摘要图和单个瀑布图。
文章小结
这篇文章的研究方向真是让人眼前一亮,巧妙地运用了机器学习、SHAP建模以及NHANES数据库,这么简单直接的方法竟然能在高影响力的期刊上获得接近5分的佳绩,这性价比简直太超值了,赶紧把握机会吧!这种基于机器学习的分析流程不仅工作量适中,而且对于熟悉生物信息学的研究者或团队来说,可能只需要几天时间就能完成所有分析工作,如果再借助服务器的计算能力,速度还能更快(需要服务器资源可以联系馆长)。包括写作和投稿在内,大约两个月就能完成一篇论文,一年内发表几篇这样的论文完全有可能!其实复现这些分析其实并不复杂,但是如果真的没有时间亲自操作,也可以寻求馆长的帮助哦!
馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!