社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

GEO已成过去式?顶刊的非肿瘤纯生信现在流行用这个数据库!结合机器学习+多组学,小小Nat Commun,拿捏~

生信塔 • 6 月前 • 259 次点击  

说到非肿瘤纯生信研究的数据库,大家是不是首先想到的就是GEO?不得不说这个数据库那真是相当好用,无论是非肿瘤、肿瘤、表达谱芯片、转录组、单细胞……所有你能想到的数据,在这里几乎都能找到,主打一个拿别人的数据,发自己的文章!对于肿瘤研究除了GEO,我们最常用的就是TCGA了,那么非肿瘤研究除了这个数据库,还有什么数据库能用呢?今天小塔就大家隆重介绍一下这个可用于非肿瘤生信分析的数据库—UK Biobank(简称UKB)。
近日,诺和诺德牛津研究中心基于UKB数据库,通过使用可解释的机器学习方法,来识别和预测亚组骨关节炎的风险生物标志物。文章涉及的临床数据完全来自UKB,而且还整合了基因组学、蛋白组学和代谢组学数据,展示了一个从数据收集、模型开发、到风险生物标志物识别的完整分析流程,具有重要的临床价值。不得不说,只要数据库用的好,顶刊也能轻松拿捏!想通过挖掘临床公共数据库来完成KPI的朋友,或者手头有资源但没时间整合的朋友,统统看过来,小塔就是那个天选团队!我这边随时待命,万事俱备,就差你啦!


定制生信分析

云服务器租赁

加微信备注99领取使用

题目:使用可解释的机器学习对骨关节炎亚组的预测性风险生物标志物进行数据驱动识别
杂志:Nature Communications
影响因子:14.7
发表时间:2024年4月
研究背景
骨关节炎(OA)的患病率越来越高,严重影响了患者的生活。骨关节炎可由多种生物学机制引起,但疾病风险的驱动因素尚不清楚。在这里,作者在机器学习模型中使用来自UK Biobank的数据来识别与骨关节炎发展相关的临床和生物标志物,并识别具有不同风险概况的亚组。
数据来源
UK Biobank
研究结果    
OA研究人群
英国生物库(UKB)是一项基于人群的队列研究,并与英国个人的电子健康记录(EHR)相关联(N = 502,476)。作者从EHR数据中确定了103,086例OA诊断患者(约占所有UKB参与者的21%)。
此外,在EHR研究期间,确定了相同数量的未被诊断为OA的对照参与者(N = 67,772)。随机选择对照,并与病例患者OA诊断日期相匹配。该研究集中在评估中心后长达5年的OA诊断,为了捕捉在诊断前5年(患者处于高危期)预测OA诊断的风险生物标志物,并为探索具有老龄化人口深层表型的预防性干预提供潜在窗口。
最终,19,120名诊断为OA的患者和19,252名对照组被纳入分析(图1A)。    
风险模型构建
在确定OA研究和验证人群后,对不同的多模态纵向患者数据进行处理,以整合到一个极端梯度增强(XGBoost)机器学习模型中。可解释的机器学习框架用于在人群、精度和个性化水平上探索和量化OA的风险生物标志物。    
从5年多模式临床数据预测OA
将回顾性纵向临床数据整合到XGBoost模型中,预测OA诊断的5年风险(Clin模型)。Clin模型的交叉验证ROC-AUC性能为0.72 (95%CI: 0.71-0.73)。此外,作者评估了clin模型在预测不同受影响关节的特定OA亚组(手臂、脚、髋关节、膝关节或脊柱)时是否具有更强的预测性能,结果显示ROC-AUC范围为0.67-0.73。    
预测OA 5年风险的基线机器学习模型,仅使用年龄、性别和BMI(众所周知的OA风险生物标志物),预测OA的ROC-AUC为0.67 (95%CI: 0.67 - 0.68)。
为了解释哪些风险生物标志物对预测OA诊断最重要,作者计算了Shapley加性解释(SHAP)值。OA风险增加的前三大预测因素包括:年龄较大、OA诊断前一年服用非甾体抗炎药(NSAIDs),以及与未患OA的个体相比BMI较高(图3D)。    
OA的精确亚组
clin模型证实,OA的生物和环境风险因素在个体之间是异质性的。作者试图捕捉这种异质性,并根据不同的风险生物标志物概况将患者分类为亚组。因此,对所有个体的所有风险生物标志物的SHAP值进行了聚类,确定了14个聚类。聚类能够发现具有OA高风险的个体亚组。此外,通过使用SHAP值,能够解释OA预测中特征的相对重要性。    
最后,使用模型中前6个特征的平均值来描述所有识别的聚类,使用原始输入值来表征聚类之间的差异。捕获了具有不同生物标志物特征的OA风险的预测原型。
为了识别预测OA风险高的聚类并了解亚组特征,作者定义了Clin模型在每个聚类中的预测性能(F1/阳性预测值(PPV)/敏感性)、每个聚类中的病例百分比和平均预测概率(图5)。
此外,作者使用一种基于决策树的算法(SkopeRules)来根据Clin模型的输入值定义每个集群的规则集。这些规则能够通过识别最具特色的变量和值来确定每个预测的OA原型,这些变量和值决定了个体的高PPV群集分配。    
OA的个体化风险生物标志物
使用来自clin模型的SHAP值进行解释,可以量化个体患者数据对OA诊断预测风险的影响。使用瀑布图提取和可视化个体OA风险谱,展示个人OA风险生物标志物预测的积极和消极影响。
作者还检查了其他个体OA风险谱,包括来自第聚类2的个体,OA预测风险非常低,来自第聚类12的OA患者,有多种代谢健康不良的迹象,以及具有高BMI和非甾体抗炎药处方的年轻个体,具有额外的生活方式因素,如来自聚类9的繁重体力劳动和轮班工作。    
多组学OA风险生物标志物
为了在临床预测模型(clin模型)的背景下探索OA的分子风险生物标志物,作者将各种类型的组学数据与临床特征相结合,包括OA遗传学(ClinSNP, ClinWGPRS, ClinGRS和ClinPath模型),代谢组学(ClinMet模型)和蛋白质组学数据(ClinPro模型),这些数据可用于个体亚群。与clin模型相比,预测性能保持不变(ROC-AUC范围:0.70-0.72)。对clin模型预测性能的敏感性分析证实,对这些特定组学亚组患者的预测性能也没有变化。然而,OA组学特征的纳入影响了模型中OA风险生物标志物的排名。    
关节炎风险生物标志物在关节间的异质性
为了进一步探索风险生物标志物在诊断为OA的不同关节中的影响,作者对临床OA诊断确定的五个关节中的任何一个被诊断为OA的个体亚群重新训练了临床模型。将clin模型与关节特异性模型进行比较时,除了脚特异性模型的预测性能较低外,没有观察到主要差异。这些模型对最具预测性的特征排序不同。
诊断为膝关节的OA患者代表了最有效的OA亚组,为了进一步探索BMI相对于多组学信号的重要性,作者对这些亚组患者的ClinGRS、ClinPath、ClinMet和ClinPro模型进行了重新训练。BMI本身预测OA风险,ROC-AUC为0.65 (95%CI: 0.64-0.66)。当纳入BMI以外的其他特征时,性能得到改善,但在膝关节特异性clin、ClinGRS、ClinPath、ClinMet和ClinPro模型之间,预测性能没有明显差异(ROC-AUC范围:0.71-0.74)。如ClinPro模型所示,CRTAC1、COL9A1和EDA2R仍在OA风险的前十大预测因子之列。其他对预测膝关节特异性ClinPro模型也很重要的蛋白包括FABP9和CHI3L1, CTRC和KRT18。    
文章小结   
该研究基于UKB数据库构建了OA机器学习模型并整合了组学特征,确定了OA特异性风险生物标志物,强调了潜在OA疾病生物学的预测重要性。这些发现可能会促进OA的早期筛查、预防和治疗,减少疾病的发病率和进展。
局限性分享
1)需要在独立队列中对已确定的风险生物标志物和模型进行外部验证,以研究模型和已确定的亚组的可重复性。
2)在代表遗传、文化背景和医疗实践多样性的一系列队列中进行验证,将进一步了解这些背景信息对OA风险的影响。
纯生信发顶刊,你们是不是想都不敢想?公共数据库数据量庞大,可挖掘空间大,如果你对公共数据库,只是略有了解,不清楚使用方法,还想深入了解或者复现的小伙伴们,赶紧扫码联系小塔吧~ 

小塔有话说


生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call小塔,我们团队竭诚为您的科研助力!


文献思路复现

定制生信分析

服务器租赁


 往期 · 推荐 

中医药又一利好消息!7分+毕业神刊助力,中医药SCI将迎来大爆发!网药+分子对接+实验验证,思路简单易复现,冲就完了~

生信的尽头是“机器学习”? 联合双硫死亡+lnRNA,这个思路爽翻了,这届年轻人有自己的科研密码!现成基因集,复现即躺赢!

这才是孟德尔随机化升级思路的正确打开方式!山东第一医科大学团队6分新作,机器学习+多组学分析,快来抄作业吧!


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/174727
 
259 次点击