Py学习  »  机器学习算法

经典选题玩出新花样!孟德尔随机化+机器学习是绝配!4张图交出1区7分+作业,Get新思路!

生信塔 • 1 月前 • 72 次点击  

嗨喽小伙伴们,又到了每天雷打不动的小塔好文分享环节啦~
细数时下的科研热点,孟德尔随机化当属在列!其分析方法相对单一固定,选题之外,思路创新便成为在内卷成风的MR领域取胜的关键!热点领域的文章思路更新迭代速度可是很快的,稍微迟疑你绞尽脑汁想出来的idea可能就被别人抢占先机了,所以抓住了好点子就要紧锣密鼓行动起来发文才不会做无用功哦!
不妨来看看今天小塔给大家带来的这篇创新佳作吧!这篇文章来自中医科学院谢雁鸣团队,探讨了血压、血糖和循环脂质与缺血性中风之间的遗传关联(PS:相对常规的指标和选题,仅靠4张图就卷到7+,关键之一即是MR和机器学习两大热门方法的强强联手)。小伙伴们准备好了吗,小塔这就带你一探究竟剖析这篇文章的精髓。话不多说,现在就跟随小塔的脚步一起来看看这篇文章的精彩之处吧~
广泛的数据来源和可靠性验证:研究数据来源广泛,包括GWAS、GEO等多个数据库,确保了数据的多样性和可靠性。并通过多种方法交叉验证,提高了研究结论的可信度。
综合生物信息学方法的应用:本研究综合运用了孟德尔随机化(MR)分析、共定位分析、差异表达分析和机器学习模型,全面探讨了血压、血糖和循环脂质与缺血性中风(IS)之间的遗传关联。这种多方法整合的研究设计提高了结果的稳健性和准确性。
预测模型的构建:基于4种机器学习方法,构建了一个基于特征基因的诺模图模型,用于量化IS发生的风险。这一预测模型具有潜在的临床应用价值,能够帮助识别高风险个体,进行早期干预和预防。(ps:本文思路经典却不老套,MR+共定位+差异表达分析+机器学习算法层层叠加,方法严谨,而且0实验哦,绝对是复刻不费吹灰之力就可拿下1区高分文章的不二之选!科研进度慢、绞尽脑汁却苦苦没有好点子?不用担心,这篇文章就是可以借鉴的典范模板!如果你有想复现的想法却困于思路方法受限的话,跟紧小塔即可弯道超车,小塔一定给您一个满意的答复!)


定制生信分析

云服务器租赁

加微信备注99领取使用   

题目:探索3种危险因素与缺血性中风的遗传关联:一项综合生物信息学研究
杂志:Stroke
影响因子:IF=7.8
发表时间:2024年6月
公众号回复“666”领取原文PDF,文献编号:240723
研究背景
缺血性中风(IS)是一种由于脑血管阻塞导致局部脑缺氧和缺血,最终引起脑细胞死亡的疾病。越来越多的证据表明,血压、血糖和循环脂质与IS有着密切的关系。然而,这三个风险因素与IS之间的遗传关联尚不清楚。
数据来源
数据集/队列
数据库
数据类型
详细信息
与血压、血糖和循环脂质相关的基因数据        
Integrative Epidemiology Unit database
GWAS数据
与血压、血糖和循环脂质相关的基因数据
GSE16561
GSE22255 GSE162955
GEO
芯片表达谱、实时PCR、高通量测序
人的外周血/脑组织IS组的RNA表达数据
特征基因的 cis-eQTL和 cis-pQTL数据
eQTLGen consortium,deCODE genetics
cis-eQTL和 cis-pQTL数据
特征基因的cis-eQTL和 cis-pQTL数据
研究思路
收集和筛选基因组关联研究和基因表达数据集,进行两样本MR分析,评估不同风险因素与缺血性中风之间的因果关系。随后进行基因共定位分析,确定与缺血性中风相关的基因。从GEO数据库获取缺血性中风数据集,进行差异分析、相关分析和免疫浸润分析。利用机器学习技术识别与风险因素和缺血性中风相关的特征基因。最后使用验证数据集验证机器学习模型结果,进行聚类分析以深入研究与风险因素相关的基因的功能机制。    
图1 研究流程图
主要结果
1.GWAS和GEO数据集收集结果
从综合流行病学单位数据库中筛选了来自不同机构的33个数据集,并包括来自GEO数据库的3个数据集: GSE16561,GSE22255和GSE162955。前2个作为训练数据集,来自于人类外周血,包括59个IS患者样本和44个对照样本。后一个数据集用于验证,来源于人脑组织,由6个IS样本和6个对照样本组成。
2.MR分析结果
MR分析结果表明,多个暴露数据集与缺血性中风存在潜在的因果关联。经过元分析整合后发现,低密度脂蛋白胆固醇(LDL-c)、载脂蛋白B(apoB)、二十碳五烯酸(EPA)、收缩压和舒张压水平的增加与缺血性中风存在因果关联。这些发现为不同风险因素与缺血性中风发病之间的遗传关系提供了宝贵的见解。    
图2 血压、血糖、循环脂质与缺血性中风之间的MR分析结果
3.共定位分析结果
共定位分析结果显示,多个暴露因素(如LDL-c、apoB、EPA、收缩压和舒张压)与缺血性中风共享相关基因。这表明这些暴露因素与缺血性中风之间存在共同的遗传机制。共定位分析有助于揭示这些因素如何通过共享基因影响缺血性中风的发病机制,为进一步研究提供了重要线索。
4.DEAGs鉴定结果及DEAGs分析
在研究中,对差异表达基因的鉴定和分析结果显示,共识聚类分析识别出16个与缺血性中风相关的基因。这些基因在对照组和缺血性中风组中的表达水平存在差异,其中一些基因在缺血性中风组中表达增加,而另一些在对照组中表达增加。    
图3 缺血性中风差异表达相关基因的鉴定和DEAG分析
5.免疫细胞相关分析结果
在免疫细胞渗透分析中,我们获得了每个样本中表达的免疫细胞的类型和含量,如图3D所示。图3E所示的单样本基因集浓缩分析显示,在对照组和IS组之间,6种免疫细胞的表达差异具有统计学意义。此外,DEAGs与免疫细胞的相关性分析显示,DEAGs与免疫细胞主要呈负相关。
6.机器学习模型的选择、诺模图的构建和结果验证
在构建的4个机器学习模型中,广义线性方法在接收器工作特征曲线下的面积最高,而残差值最低。因此选择这个模型进行进一步的分析。用于构建诺模图的得分最高的前5个基因是Furin、TOMM40、HDDC3、ALDH2和MAN2A2。使用验证数据集验证了广义线性模型,结果显示曲线值下的面积为1,表明基于GEO数据集的模型具有良好的精度。    
图4 基于DEAG的机器学习分析和诺模图的构建与验证
7.结果聚类分析和DEAG评分构建
根据DEAG的表达情况将IS样本分为C1和C2,根据DEAG簇之间DEAGs的表达情况将IS 样本分为CI和CII。随后构建了DEAG评分模型来比较簇之间DEAG的差异。结果证实了在对照组和IS组之间进行的组间分析的准确性。    
文章小结
本文通过综合运用多种先进的生物信息学方法,在探讨血压、血糖和循环脂质与缺血性中风遗传关联方面取得了创新性成果,识别出多个关键基因并构建了预测模型,同时揭示了免疫细胞在IS中的重要作用。全文思路严谨,数据全面,MR分析联合多种机器学习算法,再加上善用公共数据库挖掘,强强联手下打造出一篇7分+的亮眼MR文章。 随着MR日益盛行,如何在一众MR文章中突出重围,制胜的关键即是找准研究热点和运用前沿创新的研究思路。不瞒大家说小塔这里可有满满当当的干货秘籍噢,如果你也想借助MR研究,抓住机遇、就是现在,小塔坐等你的联系哦!
文章索引:
Exploring Genetic Associations of 3 Types of Risk Factors With Ischemic Stroke: An Integrated Bioinformatics Study
https://www.ahajournals.org/doi/10.1161/STROKEAHA.123.044424

小塔有话说


生信塔公众号持续为大家带来最新生信思路,更多创新性分析思路请点击往期推荐,快来查看吧!想复现这种思路或者定制更多创新性思路欢迎直接call小塔,我们团队竭诚为您的科研助力!

文献思路复现

定制生信分析

服务器租赁


 往期 · 推荐 

【倒计时提醒】抓住618大促尾巴:首月5折享16T空间,千元礼包等你领!

超赞!39分+!孟德尔随机化再次令人瞩目,UKB数据库+双疾病联合GWAS!配置超豪华,赶紧来学习吧!

这个思路藏不住了,再不学习就晚啦!天津中医药大学王耀刚团队1区13+:环境因素+孟德尔随机化研究,快学起来!

「原创」仅代表原创编译,水平有限,仅供学术交流,本平台不主张原文的版权,如有侵权,请联系删除。文献解读或作者简历如有疏漏之处,我们深表歉意,请作者团队及时联系小编,我们会在第一时间进行修改或撤稿重发,感谢您的谅解!    

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172575
 
72 次点击