Py学习  »  机器学习算法

5+机器学习+单细胞+实验,又是一篇卷创新的范文,思路可借鉴!

生信分析手册 • 10 月前 • 232 次点击  

导语

今天给同学们分享一篇生信文章“Identification and verification of diagnostic biomarkers for deep infiltrating endometriosis based on machine learning algorithms”,这篇文章发表在J Biol Eng期刊上,影响因子为5.7。


结果:


DIE和非DIE中DEG的筛选
图1显示了流程图。在GSE 141549数据集中,对77个DIE样品和71个NON-DIE样品进行差异表达分析。在鉴定的148个DEG中,根据以下筛选标准,38个基因显著上调:|log 2倍数变化(FC)|> 0.585且P值< 0.05,而没有观察到基因显著下调。生成GSE 141549数据集中DIE和NON-DIE之间DEG的热图和火山图。热图显示,DIE组中大多数DEG均上调,特别是USP 14、LRRFIP 1、C20 ORF 127、HSPA 1A和FTHL 12(图2A)。火山图显示22个上调基因,其中10个基因,包括USP 14、HSPA 1A、FTHL 12、USP 49、A2 M、LRRIP 1、C20 ORF 127、SEMA 3C、RH 0 B和NR 4 A2,显著上调(图2B)。


差异基因的GO和KEGG富集分析
GO富集分析表明差异基因显著影响生物学过程,影响类固醇激素反应、趋化性调节、细胞对外部刺激的反应、对肿瘤坏死因子的反应、DNA结合转录激活因子活性、RNA聚合酶II特异性以及相关功能。此外(图3A-C)。KEGG途径富集分析显示,这些差异基因的信号途径调节人T细胞白血病病毒1感染,这可能在病毒感染期间激活或破坏免疫应答途径和细胞凋亡途径(图3D-E)。

USP 14的鉴别
三种不同的机器学习方法,LASSO,随机森林(RF)和SVM,用于决策和变量选择。通过结合这些方法,有意义的特征变量之间的差异基因进行了鉴定,并选择了最佳的诊断生物标志物使用维恩图。LASSO方法成功地鉴定了七个有意义的特征变量:USP 14、HSPA 1A、FTHL 12、USP 49、C200 RF 127、NR 4A 2和HLA-DRB 5(图4A-B)。RF方法是一种由多个决策树组成的集成学习方法,有效地选择了重要得分> 4的特征变量,识别出六个特征基因:USP 14、HSPA 1A、A2 M、USP 49、FTHL 12和LRFIP 1(图4C-D)。SVM方法从差异基因中鉴定出三个特征基因:FTHL 12、USP 14和DUSP 1(图4E-F)。最终,通过文氏图,USP 14和FTHL 12被选为DIE中的共同特征基因和关键分子(图5A)。


验证USP 14在DIE中的预测能力和准确性
ROC曲线的AUC用于验证诊断标志物在预测疾病存活率方面的准确性。在GSE 141549数据集中,小提琴图和线图可视化了DIE和非DIE组中USP 14和FTHL 12的表达水平。两个图均显示,在DIE组中USP 14表达高于非DIE组(图5B-D)。为了进一步阐明USP 14在疾病预后模型中的真实预测能力,作者使用ROC曲线来验证USP 14在DIE诊断中的准确性。结果显示,USP 14在DIE中的AUC为0.786,表明USP 14模型在预测DIE预后方面具有较高的真实性(图5E-F)。结合ROC曲线结果,提示USP 14基因能准确区分DIE与非DIE,具有良好的预后预测价值。在独立验证队列中,作者发现当仅保留健康对照和DIE样本时,该模型可以100%准确地预测所有4个DIE样本,没有假阳性。然而,当作者纳入子宫腺肌病和卵巢子宫内膜异位症样本时,模型错误地将一个卵巢子宫内膜异位症样本预测为DIE,导致假阳性。结果表明,作者训练的诊断模型可以准确区分DIE患者和健康人群。同时,即使通过引入其他类似疾病的患者来增加样本异质性,作者仍然可以准确识别所有DIE患者。

USP14共表达基因集的GSEA和GSVA分析
USP 14单基因共表达分析旨在通过检测基因间的表达相关性,揭示基因间的相互作用和调控模式,进一步注释和预测USP 14的功能。作者筛选了177个USP 14共表达基因,包括58个负相关基因如WNT 4、CGN、MAL 2、TOP 2A,和119个正相关基因如SFRP 2、MYH 11、ACTG 2、DES(图6A-C)。为了更好地揭示这些共表达基因在细胞内外的功能,作者进行了GSEA和GSVA富集分析。GSEA显示,USP 14的共表达基因在与肌肉收缩和肌肉系统过程以及细胞对生长因子反应的调节相关的高样本集中显著富集。这些发现强调了它们在肌肉功能、结构和细胞生长因子反应中的重要作用。此外,这些基因与肌原纤维中的特定结构相关,如I带,进一步表明它们在肌肉精细结构和功能调节中的关键作用。这一综合分析为探讨USP14及其共表达基因在肌肉生物学中的具体作用机制提供了新的视角。USP14的共表达基因在低表达组中显著富集,并且与染色体组构、核染色体分离和细胞器分裂等生物学过程密切相关。这一发现揭示了USP14及其相关基因可能在维持染色体结构、调节细胞分裂、确保细胞器正确分布等方面发挥关键作用,为进一步探索细胞分裂精细调控机制和染色体动力学提供了新的研究途径。GSEA在肌肉系统功能、细胞反应调节和肌纤维结构方面显示出显著富集,涉及免疫相关途径、炎症介质信号传导途径、钙离子通道、心肌能量代谢、细胞凋亡和氧化应激(图6D)。GSVA功能富集分析揭示了细胞醛类合成和代谢、醛固酮代谢、核苷酸单磷酸代谢、糖皮质激素生物合成、染色质结构合成和初级醇生物代谢过程中基因功能的显著差异。随后,作者通过GSVA分析了差异基因对疾病途径的影响,并发现在非小细胞肺癌、缬氨酸/亮氨酸/异亮氨酸生物合成、硫代谢、溶酶体和类固醇生物合成中差异基因的表达增加(图6E-F)。作者进一步发现,主要由USP 14调节的生物学功能包括启用半胱氨酸型内肽酶活性[33]、内肽酶抑制剂活性[34]、蛋白结合[35]和肽酶活性。这些功能表明USP 14可能通过干预内肽酶活性诱导DIE。

USP 14对DIE和非DIE中免疫细胞及其功能的影响
使用CIBERSORT计算免疫细胞浸润,作者观察到DIE和非DIE组之间免疫细胞浸润比例的差异。B细胞和浆细胞在两种疾病中占最小比例,而成熟树突细胞、T细胞、NK细胞和巨噬细胞占较大比例(图7A)。此外,作者评估了上述21种免疫细胞类型之间的相关性,并计算了相关系数。大多数细胞显示出负相关性,在一组中发现最高的负相关系数,包括活化的自然杀伤细胞(相关系数R = 0.37)(图7B)。此外,两组细胞具有相对显著的正相关性:M1巨噬细胞(R = 0.43)和记忆B细胞(R = 0.35),其中M1巨噬细胞与USP 14的相关系数最高。为了进一步研究USP 14对22种免疫细胞类型的影响,作者使用哑铃图和相关散点图来显示免疫细胞与特征基因之间的相关性。M1巨噬细胞(p= 0.004)和记忆B细胞(p= 0.023)显示与USP 14显著正相关,而活化的自然杀伤细胞(p= 0.015)显示显著负相关(图7C-D)。在免疫细胞的差异分析中,箱形图显示细胞毒性活性和NK细胞在非DIE条件下高度表达,而肥大细胞在DIE条件下高度表达(图7E)。基于此,在对USP 14和29种免疫功能之间的关系进行评分后,作者发现USP 14在促炎反应、肥大细胞和NK细胞功能中发挥作用。USP 14的作用在细胞裂解活性(在清除病原体和异常细胞的免疫应答中至关重要)、未成熟树突细胞和II型干扰素功能方面具有统计学显著性(图7F)。

ceRNA调控网络和单细胞RNA-seq数据分析
利用GEO数据库中的RNA-seq数据,单细胞转录组测序揭示了USP 14基因在不同细胞类型中的表达模式,展示了其生物学功能的广度和复杂性。通过颜色区分,作者可以直观地看到T细胞、B细胞和其他细胞类型(包括成纤维细胞、NK细胞、内皮细胞、平滑肌细胞、上皮细胞和单核细胞)的分布,突出了它们的表达差异和潜在的生物学功能区别(图8A-B)。ISNE_1轴和细胞大小信息为分析细胞分布模式提供了额外的维度,进一步增强了作者对细胞类型多样性的理解(图8C)。作者理解,USP 14在各种细胞类型中以不同水平表达,反映了其在不同细胞中的活性水平(图8D-E)。为了进一步验证USP 14在DIE中的诊断和预测价值,作者使用生物信息学方法构建了由DIE lncRNA、miRNA和mRNA组成的三维调控网络。从ceRNA调控网络中,作者发现16种miRNA和32种lncRNA与USP 14 mRNA相互作用(图8F)。

子宫内膜异位症中USP 14的免疫组化染色
作者首先筛选了含有内皮损伤的DIE和非DIE组织切片,并通过免疫组织化学染色确定了USP 14在两个不同组织部位的表达水平。结果进一步证实了在DIE组织中存在高水平的USP 14表达。在IHC中可以看到,无论是深部子宫内膜异位还是非深部子宫内膜异位,USP 14在异位病灶的腺上皮细胞中高表达,且其表达水平明显高于周围细胞(图9)。不同的是,在深部子宫内膜异位症中,USP 14在除局灶性腺上皮外的其他细胞中的表达显著高于非深部子宫内膜异位症。



总结

本研究在研究USP 14与DIE之间的关系方面取得了重大进展。这不仅为DIE的早期诊断提供了新的分子靶点,也为进一步探讨USP14在疾病中的作用机制和开发新的治疗方法奠定了坚实的基础。未来的研究应继续深入研究USP14在DIE中的具体通路,探索其作为治疗靶点的潜力,并整合其他疾病的研究成果,构建更全面的疾病网络模型。作者相信,随着研究的不断深入,USP14将在DIE及其他相关疾病的诊断和治疗中发挥越来越重要的作用,为改善患者的生活质量和提高疾病治愈率贡献新的见解。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176901