社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

4+机器学习+单细胞+实验,干湿结合思路,简简单单操作!!

生信分析手册 • 1 周前 • 46 次点击  

导语

今天给同学们分享一篇生信文章“Identification of EGR1 as a Key Diagnostic Biomarker in Metabolic Dysfunction-Associated Steatotic Liver Disease (MASLD) Through Machine Learning and Immune Analysis”,这篇文章发表在J Inflamm Res期刊上,影响因子为4.2。


结果:


DEG的鉴定及免疫浸润分析
作者从基因表达综合数据库(GEO)下载了五个数据集:GSE 48452、GSE 63067、GSE 66676、GSE 89632和GSE 107231。这些数据集随后被合并和标准化。通过差异分析,作者发现了42个差异表达的基因,其中17个上调和25个下调基因。这些基因的表达模式显示在热图(图2A)和火山图(图2B)中。
Figure 2

各种免疫细胞群与肝细胞、星状细胞和窦内皮细胞之间的复杂相互作用在MASLD的发病机制中起着关键作用。因此,作者采用CIBERSORT算法来研究MASLD患者和健康对照之间免疫微环境的差异。作者的分析揭示了MASLD组和对照组之间22种不同免疫细胞类型的比例的改变(图2C)。图2D呈现了MASLD群组内这22个免疫细胞组之间的相关性分析。图2E显示了两组之间显著差异表达的免疫细胞类型,特别突出了MASLD组中单核细胞的富集表达。这些发现表明,免疫微环境的改变可能在MASLD的发展中起着至关重要的作用。

通过机器学习技术进行Hub基因选择
为了进一步鉴定MASLD组和对照组之间的Hub差异表达基因,作者采用了三种机器学习算法:LASSO、RandomForest和SVM-RFE(图3A-F)。作者使用Venn图来交叉由每个算法鉴定的关键基因,最终鉴定出十个枢纽基因(图3G),通过作者的分析鉴定出的十个枢纽基因如下:CYP 7A 1、PEG 10、P4 HA 1、IGFBP 2、IL 6、ME 1、NR 4A 2、VIL 1、TMEM 154和EGR 1。
Figure 3

外部数据集验证
在MASLD患者和对照样品之间观察到10个特征性基因的显著差异表达,表明它们在MASLD进展中的潜在关键作用。此外,进行ROC分析以评估它们的预后价值,揭示了所有基因都具有实质性的诊断效用。

为了确认这些关键基因的表达模式和诊断能力,使用外部数据集GSE 164760进行了额外的验证,包括基因表达验证和ROC曲线分析。结果表明CYP 7A 1、PEG 10和TMEM 154上调,而EGR 1、IGFBP 2、NR 4A 2和P4 HA 1下调(图4A-G)。使用验证数据集GSE 164760对枢纽基因进行进一步的ROC分析,并获得曲线下面积(AUC)值。IGFBP 2(AUC = 0.869)、NR 4A 2(AUC = 0.883)、TMEM 154(AUC = 0.836)和EGR 1(AUC = 0.882)的AUC值均大于0.83(图4 H-K),进一步证实了这些基因的强预测能力。
Figure 4

富集分析
基于外部验证集的AUC值,作者选择EGR1作为进一步研究的关键基因。使用R软件包“limma”,作者将MASLD组中的患者分为EGR1高表达组和EGR1低表达组。通过差异分析,共鉴定出278个差异表达基因。图5A是差异表达基因的热图,显示了具有表达差异的前40个基因。图5B显示了这40个基因之间的相关性,红色表示正相关性,蓝色表示负相关性。
Figure 5

随后,作者对这些差异表达的基因进行了基因本体(GO)(图5C)和京都基因和基因组百科全书(KEGG)(图5D)富集分析。生物学过程分析显示,在细胞-细胞粘附、白细胞-细胞粘附、趋化性、趋化性、单核细胞分化和白细胞迁移的调节方面有显著的富集。细胞成分分析主要集中在细胞膜外侧、分泌颗粒膜、内吞囊泡、含胶原的细胞外基质、内吞囊泡膜。分子功能分析主要涉及DNA结合转录激活因子活性、RNA聚合酶II特异性、DNA结合转录激活因子活性、免疫受体活性、细胞因子结合。在KEGG富集分析中,破骨细胞分化、人T细胞白血病病毒1型感染、精氨酸-细胞因子受体相互作用、流体剪切力与动脉粥样硬化、MAPK信号通路等途径均观察到明显富集。

Hub基因的GSEA和GSVA
为了进一步研究关键基因在MASLD发病机制中的作用,作者进行了基因集富集分析(GSEA)和基因集变异分析(GSVA)。GO的GSEA显示,细胞趋化性、细胞对细菌来源分子的反应、粒细胞趋化性、白细胞趋化性、miRNA代谢过程的正调控在EGR 1的高表达组中富集(图6A);线粒体基因表达、线粒体翻译、线粒体蛋白复合物、核糖体亚基、核糖体结构组分在EGR 1的低表达组中富集(图6 B)。KEGG的GSEA显示,趋化因子信号传导途径、丝氨酸-细胞因子受体相互作用、利什曼原虫感染、MAPK信号传导途径、toll样受体信号传导途径在EGRl的高表达组中富集(图6C);氧化磷酸化、帕金森病、过氧化物酶体、蛋白酶体和核糖体在EGRl的低表达组中富集(图6D)。
Figure 6

随后,作者进行GSVA分析EGR 1高表达和低表达亚组之间的差异。在EGR 1的高表达组中(图6 E),存在几种途径的激活,包括与帕金森病、蛋白质输出、氨酰-tRNA合成、核糖体和氧化磷酸化相关的那些途径。在EGR 1的低表达组中,富集了包括朊病毒疾病、MAPK信号传导、B细胞受体信号传导、T细胞受体信号传导和利什曼原虫感染的途径。

免疫分析
以往的研究表明,免疫微环境在MASLD的发病机制中起着至关重要的作用。为了进一步研究EGFR 1对免疫微环境改变的影响,作者分析了中枢基因高表达组和低表达组之间16种免疫细胞类型和13种免疫功能的差异(图7A)。
Figure 7

随后的分析探索了关键基因和免疫细胞之间的联系。如图7 B所示,EGR 1与中性粒细胞(r=0.3)和活化的肥大细胞(r=0.25)呈现显著的正相关性,与静息树突状细胞(r=-0.21)和静息肥大细胞(r=-0.31)呈现显著的负相关性。这些结果强调了EGR 1在调节多种免疫细胞相互作用中的不可或缺的作用,强调了其作为MASLD免疫相关治疗靶点的潜力。

TF-miRNA-mRNA调控网络和单细胞测序数据
从Trrust数据库检索潜在的转录因子(TF),并使用Starbase数据库鉴定候选miRNA。作者随后构建了交互网络的可视化表示(图7 C)。TF-miRNA-mRNA调控网络模拟了细胞内基因表达调控的复杂相互作用。研究这些网络对于阐明基因调控的细胞机制至关重要,这深刻影响了作者对疾病过程的理解和创新治疗方法的发展。在图中,绿色框代表转录因子(TF),蓝色框代表microRNA(miRNAs),它们是短的非编码RNA分子。

通过对单细胞数据集GSE 159977的分析,作者鉴定了关键基因在四个不同细胞亚型中的分布(图7D)。具体地,对于关键基因EGRl,作者观察到对照组和MASLD组之间单核细胞的显著差异(图7E)。

通过体内和体外实验验证
作者建立了小鼠脂肪肝细胞模型。使用油红O染色,作者观察到与正常对照组相比,PA组中脂滴显著积聚(图8A)。PCR分析表明PA组中EGR1表达水平显著降低(图8B)。在蛋白质水平,EGFR 1也显著降低(图8C和D)。作者进一步验证了关键基因在动物模型中的表达水平。与对照组相比,喂食MCD饲料的小鼠的肝组织切片在H&E和油红O染色中表现出明显的炎症和气球样变性,并伴有大量脂滴蓄积(图8E)。此外,这些小鼠中总胆固醇(TC)和甘油三酯(TG)的血清水平显示出显著的变化(图8F和G),证实了模型的成功建立。
Figure 8

随后,作者测量了肝组织中促炎细胞因子的表达水平。观察到CCL 2、IL-1β和TNF-α水平的显著变化,而IL-6水平保持不变(图8H)。小鼠肝组织中EGR 1的相对mRNA水平显示出显著降低(图8I),相应的蛋白质水平显示出显著差异(图8 J和K),与先前的发现一致。

总结

在这项研究中,通过差异基因表达(DEGs)分析和机器学习技术,作者成功地确定了10个枢纽基因。其中,使用外部数据集验证并筛选了关键基因EGR1,曲线下面积(AUC)为0.882。富集分析和免疫浸润评估揭示了涉及EGR1在MASLD发病机制和进展中的多个途径,显示出与各种免疫细胞的显著相关性。此外,额外的细胞实验和动物模型验证证实了EGR1的表达趋势与作者的分析结果高度一致。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180032
 
46 次点击