Py学习  »  机器学习算法

7+乳酸化+机器学习+单细胞,超实用的模板思路 !想脱颖而出的同学抓紧了!!

生信分析手册 • 1 年前 • 361 次点击  

导语

今天给同学们分享一篇生信文章“Immunological profile of lactylation-related genes in Crohn’s disease: a comprehensive analysis based on bulk and single-cell RNA sequencing data”,这篇文章发表在J Transl Med期刊上,影响因子为7.4。



结果:

CD患者的肠道整体表达谱
在获取了三个与CD相关的数据集(GSE16879、GSE75214和GSE112366)并消除了任何批次效应后,作者获得了226名CD患者和43名健康对照者的表达谱(图1A-D)。方差分析揭示了CD患者肠道中2751个上调基因和3064个下调基因(图1E, E, F)。这些差异表达基因进一步进行了功能和GO分析,结果显示“细胞粘附的正调节”、“细胞的顶部”和“磷脂结合”与CD强相关(附加文件2:图S1A-C)。此外,KEGG分析显示CD与“聚焦粘附”和“PI3K-Akt信号通路”之间存在强相关性(附加文件2:图S1D)。

乳酸化相关基因的表达特征
在获得上述的基因表达谱之后,作者调查了与乳酸化相关的34个基因及其表达差异。作者的研究结果显示,在CD患者中,与乳酸化相关的7个基因明显上调,而9个基因下调(图2A,附加文件3:图S2)。为了进一步验证这16个基因在结肠炎中的表达谱,作者建立了DSS诱导的小鼠模型,并通过qPCR验证了这16个基因在小鼠结肠组织中的表达谱与生物信息学分析结果一致(附加文件4:图S3)。作者对这16个表达差异明显的基因进行了功能分析。作者的GO分析显示了“组蛋白去乙酰化”、“组蛋白修饰”和“组蛋白去乙酰化酶复合物”方面的显著变化(图2C)。此外,作者的KEGG分析显示了“丙酮酸代谢”、“中性粒细胞外网形成”和“HIF-1信号通路”方面的显著变化(图2D)。最后,作者利用STRING数据库预测了16个表达差异的与泌乳相关基因的蛋白质相互作用网络(图2E)。

乳酸化的中心基因的鉴定
为了客观地确定与乳酸化相关的基因的中心基因,作者对16个差异表达基因进行了套索回归,并发现了11个基因(图3A)。作者利用随机森林分析和SVM-RFE算法对乳酸化相关基因进行排名,并确定了前10个基因(图3B,B,C)。通过对这三种方法得到的基因进行重叠分析,作者确定了6个基因作为乳酸化的中心基因,即EMB,HDAC3,HIF1A,PARK7,SIRT1和SLC16A1(图3D,D,E)。作者使用ROC评估了它们在区分克罗恩病患者和健康个体方面的潜力,发现HIF1A,SIRT1,SLC16A1和EMB具有合理的区分能力(图3F)。

CD患者关键基因的功能分析
在确定了中心基因之后,作者对这六个中心基因与其他所有基因进行了相关性分析,然后根据相关性结果进行了基于GSEA的分析(附加文件5:图S4)。EMB表达与各种营养物质的吸收呈正相关,与肠道上皮细胞的细菌侵袭呈负相关(图4A)。HDAC3表达与B细胞受体信号通路、Th细胞分化和NF-kappa B信号通路呈正相关,与TCA循环呈负相关(图4B)。HIF1A表达与NOD样受体信号通路和TNF信号通路呈正相关(图4C)。PARK7表达与脂肪和维生素的消化吸收呈负相关,与蛋白酶体和细胞周期呈正相关(图4D)。SIRT1表达与蛋白酶体、氧化磷酸化和沙门氏菌感染呈负相关(图4E)。另一方面,SLC16A1表达与自然杀伤细胞介导的细胞毒性、B细胞受体信号通路和T细胞受体信号通路呈负相关,而与氧化磷酸化和核糖体呈正相关(图4F)。

表达的中枢基因与CD患者的免疫特征相关
作者对CD患者和健康对照组的免疫细胞浸润水平进行了分析。作者的研究结果表明,在CD患者的肠道中,23种免疫细胞中有16种的浸润水平显著增加,而有2种的浸润水平显著降低(图5A,A,B)。作者发现EMB表达与23种免疫细胞中的16种浸润水平呈显著负相关,此外,活化的CD8 T细胞和单核细胞的数量之间存在正相关(图5C)。HDAC3的表达与23种免疫细胞中的12种浸润水平呈显著正相关,与中性粒细胞的数量呈负相关(图5D)。相应地,HIF1A的表达与23种免疫细胞中的22种浸润程度呈显著正相关(图5E),而PARK7的表达与23种免疫细胞中的20种浸润水平呈显著正相关(图5F)。SIRT1表达与23种免疫细胞中的15种浸润水平呈显著负相关(图5G),而SLC16A1表达与23种免疫细胞中的12种浸润水平呈显著正相关,与6种免疫细胞呈负相关(图5H)。

使用单细胞RNA测序数据鉴定CD患者中的11个细胞群集
如图1所示,根据质量控制标准和CD scRNA-seq数据的标准化(附加文件6:图S5A-E),分析了88,322个细胞。共检查了20,527个基因,附加文件6:图S5F显示了前25个基因。接下来,使用统一流形逼近和投影(UMAP)来降低维度,成功将细胞分成11个不同的簇(res = 0.2)(图6A, A,B)。然后,使用“SingleR”功能进行细胞注释,得到了八种细胞类型的注释和表示:CD4 T细胞、B细胞、NK细胞、DC/巨噬细胞、上皮细胞、成纤维细胞、内皮细胞和CD8 T细胞(图6C)。进行了差异表达分析,揭示了所有11个簇中的6659个标记基因的完整计数,如图6D所示。

单细胞分析验证了乳酰化与CD中的免疫相互作用
作者通过检查不同细胞类型中34个与乳酸化相关的基因的表达来评估单个细胞的乳酸化水平(图7A)。根据图表,上皮细胞、CD8 T细胞和内皮细胞的乳酸化水平得分相对较高(图7B,C)。然而,B细胞、CD4 T细胞和NK细胞显示相对较低的得分。细胞随后根据乳酸化水平进行分选,并根据中位数值将其分为高乳酸化组和低乳酸化组。作者发现B细胞的乳酸化水平相对较低,而DC/巨噬细胞、上皮细胞、成纤维细胞、内皮细胞和CD8 T细胞显示相对较高的乳酸化水平(图7D)。最后,作者通过炎症区域对细胞进行分类和分析,结果显示乳酸化水平在炎症区域通常比非炎症区域更高(图7E)。此外,特定细胞类型(如CD4 T细胞、B细胞、上皮细胞、成纤维细胞、内皮细胞和NK细胞)在炎症区域的乳酸化水平显著较高(图7F)。

功能聚类分析确定了与乳酰化相关的关键途径
为了进一步确定与乳酰化相关的关键途径,使用R软件包GSVA根据MSigDB数据集对每个细胞进行评分,并分析不同细胞类型中HALLMARK途径评分与乳酰化水平之间的相关性。结果发现,“OXIDATIVE PHOSPHORYLATION”、“MYC_TARGETS_V1”和“MTORC1_SIGNALING”途径在所有细胞中显示出最强的相关性(图8)。根据KEGG数据集,作者发现“KEGG HUNTINGTONS DISEASE”和“KEGG PYRUVATE METABOLISM”与乳酰化水平之间显示出最强的相关性,同时作者还发现“KEGG TIGHT JUNCTION”和“KEGG APOPTOSIS”与乳酰化水平也显示出较强的相关性(附加文件7:图S6)。根据PID数据集,作者发现“PID HDAC CLASSI PATHWAY”、“PID HDAC CLASSIII PATHWAY”和“PID MYC ACTIV PATHWAY”与乳酰化水平之间具有最强的相关性(附加文件8:图S7)。

总结

总之,作者进行了全面的分析,探讨了乳酸化相关基因对 CD 的影响,并确定了四个中心基因,可以作为 CD 患者的新型诊断标志物。同时,作者基于单细胞数据描述了 CD 患者肠道免疫细胞的乳酸化情况,为乳酸化与 CD 之间的关系提供了新的见解,这对未来的研究可能有用。


往期推荐

                                                                                                                      



纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/173397