Py学习  »  机器学习算法

4+单细胞+机器学习+免疫相关,单细胞测序+机器学习相结合,纯生信文章也能玩出花!

生信分析手册 • 8 月前 • 207 次点击  

导语

今天给同学们分享一篇生信文章“Single‐cell combined with transcriptome sequencing to explore the molecular mechanism of cell communication in idiopathic pulmonary fibrosis”,这篇文章发表在J Cell Mol Med期刊上,影响因子为4.3。



结果:

scRNA‐Seq数据中的单细胞水平分析
在这项研究中,单细胞数据与GSE122960是从NCBI GEO公共数据库下载的。数据样本最初是根据nFeature RNA和nCount RNA标准(nFeature RNA > 500 & percent.mt <5)筛选的,并鉴定出标准差最高的前10个基因,此外,通过PCA降维分析,观察到样品间的批次效应并不突出,并通过 ElbowPlot:15 确定最佳 PC 数量,最终,UMAP分析共产生了25个亚组。

单细胞数据的细胞亚群注释
在这项研究中,每个亚型都用 R 包 SingleR 注释,并将 25 个簇注释为 8 个细胞类别:上皮细胞、巨噬细胞、T 细胞、单核细胞、内皮细胞、NK 细胞、B 细胞和组织干细胞,此外,还根据对照组和疾病组探讨了上皮细胞、巨噬细胞、T细胞、单核细胞、内皮细胞、NK细胞、B细胞和组织干细胞含量的差异,最后,作者通过FindAllMarkers函数从单细胞数据中提取每种细胞亚型(cellMarkers.txt)特有的标记基因。

细胞间通讯分析
作者使用软件包 CellChat 分析了单细胞表达谱中 Fature 的配体-受体关系。在这些细胞亚型之间发现了复杂的相互作用对,最后,作者们从统计学上发现,巨噬细胞和单核细胞等细胞与其他细胞具有更密切的潜在相互作用,因此,作者最终选择了巨噬细胞的标记基因作为候选基因集。
RSF模型和关键基因的筛选
为了进一步确定影响IPF进展的关键基因,作者对巨噬细胞的标记基因进行了RSF分析。作者鉴定了相对重要性>0.5的基因作为最终标记,显示了五个基因的重要性顺序,最后,作者分析了这5个关键基因的存活率,结果显示CD163、IFITM2、IGSF6、S100A14和SOD3在高低组之间的生存率差异有统计学意义,以中值为临界点作为后续研究的关键基因。

关键基因免疫浸润分析及其与免疫因子的相关性
微环境主要由成纤维细胞、免疫细胞、细胞外基质、各种生长因子、炎症因子和独特的理化特征组成。微环境显著影响疾病诊断、生存结果和临床治疗效果。免疫浸润水平的分布和免疫细胞相关性的热图如图所示,值得注意的是,与对照组相比,疾病组样本表现出显着更高的单核细胞和肥大细胞活化水平,本研究进一步研究了关键基因与免疫细胞之间的关系,揭示了几个关键基因与免疫细胞之间的强相关性,此外,还分析了这5个关键基因与免疫抑制因子、免疫刺激因子、趋化因子和受体等不同免疫因子的相关性。这些分析表明,关键基因与免疫细胞浸润水平密切相关,在微环境中起着至关重要的作用。



涉及关键基因的信号通路
接下来,作者将研究涉及五个关键基因的特定信号通路,并探讨关键基因影响IPF进展的潜在分子机制。GSVA结果显示,CD163的高表达可以富集在EPITHELIAL_MESENCHYMAL_ TRANSITION、OESTROGEN_RESPONSE_LATE、P53_PATHWAY和REACTIVE_ OXYGEN_SPECIES_PATHWAY等信号通路中,IFITM2的高表达可以在CHOLESTEROL_HOMEOSTASIS、OESTROGEN_RESPONSE_LATE、EPITHELIAL_MESENCHYMAL_TRANSITION和WNT_BETA_CATENIN_SIGNALLING等信号通路中富集,IGSF6的高表达在EPITHELIAL_MESENCHYMAL_TRANSITION、KRAS_SIGNAL ING_UP、MTORC1_SIGNALLING和OESTROGEN_RESPONSE_LATE中富集,S100A14的高表达在EPITHELIAL_MESENCHYMAL_TRANSITION、OESTROGEN_RESPONSE_LATE、ANGIOGENESIS 和 KRAS_ SIGNALLING_UP 中富集,SOD3 的高表达在 OESTROGEN_RESPONSE_LATE、EPITHELIAL_MESENCHYMAL_TRANSITION、KRAS_SIGNALLING_UP、MYC_TARGETS_V2 和 OESTROGEN_RESPONSE_ 早期富集。此外,GSEA显示CD163富集于IL-17信号通路、Rap1信号通路和TNF信号通路,IFITM2 富集于 DNA 复制、ECM − 受体相互作用和 Fanconi 贫血通路,IGSF6富集于趋化因子信号通路、嗅觉转导和PI3K−Akt信号通路,S100A14在ECM-受体相互作用、黏着斑、嗅觉转导等通路中富集,SOD3富集细胞因子-细胞因子受体相互作用、黏着斑和神经活性配体-受体相互作用等途径,这表明关键基因可能通过这些途径影响基因进展。


miRNA网络的构建及关键基因转录调控分析
通过miRcode数据库筛选,鉴定出5个关键基因并进行反向预测,鉴定出60个miRNA和97个mRNA-miRNA关系对。这些关系是使用 Cytoscape 可视化的,本研究分析的基因集集中在这5个关键基因上,揭示了常见的调控机制,如多种转录因子。使用回收率曲线、MotifF注释和重要基因的选择分析对这些转录因子进行富集分析。分析结果表明,cisbp__M0686基序的归一化富集得分最高(NES:6.58)。所有富集基序及其对应的关键基因转录因子的概述如图所示。

列线图模型的构建
作者通过CD163、IFITM2、IGSF6、S100A14和SOD3的表达水平和临床信息,以列线图的形式呈现回归分析的结果。回归分析结果显示,在所有样本中,IPF对不同临床指标的值以及CD163、IFITM2、IGSF6、S100A14和SOD3的表达分布在整个评分过程中都有不同程度的贡献,同时,作者还对OS进行了1年和2年的预测分析,结果表明,CD163、IFITM2、IGSF6、S100A14和SOD3相关列线图模型具有较好的预测性能。
关键基因与疾病调控基因的相关性
在这项研究中,通过 GeneCards 数据库 (https://www.genecards.org/) 获得与 IPF 疾病调节基因相关的基因。根据相关性评分分析前20个基因的表达水平,发现两组患者TERT、CFTR、RTEL1、SFTPC、SFTPA2、CACNA1H、MUC5B、TERC、SFTPA1、SFTPB、TBX4和SERPINA1的表达水平存在差异,此外,5个关键基因的表达水平与疾病调控基因的表达水平显著相关,其中SOD3和SFTPB呈显著正相关(r = 0.796),IFITM2和SERPINA1呈显著负相关(r = −0.337)。

单细胞关键基因的表达状态及共表达分析
在这项研究中,分析了关键基因在单细胞中的表达。CD163、IFITM2、IGSF6、S100A14和SOD3在上皮细胞、巨噬细胞、T细胞、单核细胞、内皮细胞、NK细胞、B细胞和组织干细胞中的表达水平如图所示,此外,还显示了单细胞数据中PD-1和关键基因的基因共表达以及共表达基因的相关性。

总结

IPF的异质性,每个细胞群的相互作用和免疫渗透被认为是最大的。本研究的意义在于鉴定了5个关键基因,这些基因对IPF预后具有增强的预测能力。此外,进一步分析这些关键基因中涉及的特定信号通路及其与肺纤维化调节基因的关系。总体而言,这项研究为研究与IPF相关的基因提供了新的信息和见解。然而,本研究存在一些不可避免的局限性:(1)scRNA-seq数据的样本量相对较小;(2)靶基因在肺纤维化中的调控机制需要通过基础实验进一步探索和验证,这是本研究提出的未来工作,需要继续探索。


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/173178
 
207 次点击