环境塑造人,环境影响人,同样环境因素在疾病的发生、发展中起重要作用。自18世纪英国工业革命开始,工业化逐渐向世界各地扩展,20世纪中后期融合信息技术后进一步加速了工业化进程,而工业生产过程产生的大量化学物质可能对各种疾病产生影响。今天,馆长分享一篇涉及环境因素的生信文章,一起看看文章亮点~
1. 追随时代。该研究从环境角度进行疾病研究,重点聚焦于环境内分泌干扰物(EDC)、基因与扩张型心肌病(DCM)之间的关联,这个思路既结合了当下的时代背景,又联系了科室疾病,新颖探索让人眼前一亮!从环境角度去研究疾病机制很有创意,其他疾病也完全可以进行类似探索,也可能会得到意想不到的收获(如同本文,说不定会有新发现…)
2. 创新方法。该研究在预测模型构建中,结合了最大相关性最小冗余(mRMR)算法和最小绝对收缩和选择运算符(LASSO)算法,机器学习(ML)方法的应用让文章创新性提升!另外在模型性能评估中,应用了多种指标(包括受试者工作特征曲线的曲线下面积(ROC-AUC)、准确性、精确率、召回率、F1分数等),让评估准确性提高!
PS:“环境因素+转录组+机器学习”构建预测模型,这个思路你学会了吗?想复现的朋友,快来联系馆长设计思路、定制分析吧~
定制生信分析
云服务器租赁
加好友备注“99”领取试用
题目:通过生物信息学和机器学习识别靶向关键DCM相关基因的内分泌干扰物
杂志:Ecotoxicology and Environmental Safety
IF:6.2
发表时间:2024年4月
研究背景
扩张型心肌病(DCM)是心力衰竭(HF)的主要原因。有研究显示,环境内分泌干扰物(EDC)通过改变激素受体、信号通路和基因表达对各种疾病的影响,而其与DCM之间关系的研究仍然缺乏。本研究旨在使用机器学习(ML) 构建预测模型来探索关键的DCM相关基因。
数据来源
数据集/队列 | 数据库 | 数据类型 | 详细信息 |
GSE141910 | GEO | RNA-seq数据 | 包括161份左心室游离壁组织取自心脏手术时接受心脏移植的心力衰竭患者,161份来自未使用但功能明显正常的供体心脏。 |
研究思路
首先,利用DCM相关的表达谱数据和ML算法来识别关键的DCM相关基因并构建预测模型。通过差异表达基因(DEG)分析确定了2174个DEGs,并进行基因本体论(GO)分析、京都基因与基因组百科全书(KEGG)通路富集分析。通过最大相关性、最小冗余(mRMR)筛选出100个重要基因,并通过最小绝对收缩和选择运算符(LASSO)逻辑回归的ML技术
筛选出6个关键基因(IL1RL1、 SEZ6L、SFRP4、COL22A1、RNASE2、HB)构建DCM预测模型,通过评估显示出良好的预测性能(图1)。
图1 通过综合策略鉴定关键DCM相关基因
其次,利用关键基因构建DCM相关的EDCs-关键基因网络并鉴定DCM相关的EDC,以探讨环境EDC与DCM之间的关联。利用比较毒理基因组数据库(CTD)分析了EDCs与关键DEGs之间的相互作用,并构建EDCs-基因-DCM网络,发现79种EDCs与关键基因有关联,其中75种先前已被证实与DCM相关,而4种(3,4-二氯苯胺、硝硫磷、芘、异丙脲)尚未被证实与DCM相关(图2)。
图3 EDCs-基因-DCM网络
文章小结
该研究确定了与DCM相关的关键基因,以及促进其发生的潜在EDCs,最终构建了EDCs-基因-DCM关系网络,并鉴定了4个新的可能与DCM相关的EDCs,为进一步研究DCM与环境内分泌干扰物的关系提供了支持,也为环境激素研究领域的类似研究提供了新思路。利用转录组数据和机器学习算法来构建疾病预测模型的思路,你学会了吗?想复现思路的朋友,快来联系馆长设计思路、定制分析吧~
馆长会持续为大家带来最新生信思路,也可以提供特色数据库构建、免费思路评估、付费生信分析和方案设计以及实验项目实施等服务,对数据库构建和生信分析感兴趣的朋友可以咨询馆长哦!