Py学习  »  机器学习算法

5+机器学习+PPI+实验,超绝思路值得深挖~

生信分析手册 • 10 月前 • 216 次点击  

导语

今天给同学们分享一篇生信文章“Screening biomarkers for spinal cord injury using weighted gene co-expression network analysis and machine learning”,这篇文章发表在Neural Regen Res期刊上,影响因子为5.9。


结果:


测序信息和质量控制
RNA-seq已广泛与下一代测序结合使用,以探索SCI的复杂病理机制(Tigchelaar et al.,2019; Kyritsis等人,2021年)。本研究构建了12个cDNA文库并进行了测序。总共产生了2.8283亿个原始读数,所有原始读数达到2060多万个。各样本中,Q30占比均超过92.68%。结果共发现2108个miRNAs,其中成熟miRNAs 1519个,新发现miRNAs 589个。主成分分析显示SCI和HC相对区分为两组(图1A)。使用方法中所述的阈值,鉴定了54种DEM,包括39种上调的DEM和15种下调的DEM(图1B)。

DEG的鉴定和功能富集分析
来自GSE 151371数据集的38名SCI患者和10名HC的基因表达谱的主成分分析图显示在图1C中;这两组可以清楚地区分。共鉴定出1656个DEG,其中上调基因908个,下调基因748个。图1D中的火山图显示了SCI与HC的DEG的总体分布。

GO分析显示,在生物过程类别中,上调的DEG主要富集在炎症反应和免疫调节中,而下调的DEG主要参与免疫相关过程。在细胞成分方面,有一个主要的颗粒腔和囊泡腔的上调DEGs的富集,而下调DEGs显示在免疫突触和细胞器包膜富集。在分子功能类别中,上调的DEG富集在模式识别受体活性、蛋白酶结合和β受体结合中,而下调的DEG主要参与蛋白结合和免疫受体活性的调节(图2A和B)。KEGG信号传导途径分析揭示,上调的DEG在癌症中的NOD样受体信号传导途径和转录失调中富集(图2C)。大多数下调的DEG与免疫系统相关的途径有关,包括T细胞受体信号传导途径、Th1和Th2细胞分化、Th17细胞分化、自然杀伤细胞介导的细胞毒性、核因子-κ B(NF-κ B)信号传导途径和原发性免疫缺陷(图2 D)。

通过GSEA鉴定的SCI相关信号通路
GSE 151371数据集的GSEA显示,许多活化的途径,包括金黄色葡萄球菌感染、氧化磷酸化和中性粒细胞胞外陷阱形成途径,主要富集在SCI组中(图3A)。SCI组的T细胞受体信号通路、原发性免疫缺陷和核糖体通路均受到抑制(图3B)。6种途径的内斯结果显示在图3C中。

WGCNA的构建和关键模块的确定
WGCNA是分析多个样品中的基因表达模式和基因与基因关系的强大的系统生物学方法(Horvath和Dong,2008; Sánchez-Baizán等人,2022年)。作者使用WGCNA在GSE 151371数据集中找到与SCI密切相关的基因亚型。共分析了10,048个基因(选择方差大于25%的基因)。当软阈值设置为28时,尺度独立性达到0.85,并且邻接矩阵获得了相对较高的平均连通性值(图4A)。使用分层聚类方法鉴定了9个共表达模块(图4B)。热图如图4C所示。包含288个基因的绿色模块在所有模块中显示出最高的绝对相关性,因此作者在随后的分析中集中于该模块。图4D显示了绿色模块中模块成员与基因显著性之间的相关性分析(相关值为0.68,P= 2 e-40)。

hub基因的鉴定及miRNA-mRNA网络的构建
利用米兰达和RNAhybrid构建了miRNA-mRNA靶向调控网络。共有1859个基因被确定为54个DEM的潜在靶基因。作者将这1859个基因与1656个DEG和288个绿色模块基因重叠,并获得14个重叠基因用于进一步分析(图5A)。使用DEM和14个重叠基因构建了miRNA-mRNA网络;该网络由10个DEM、12个上调的关键DEG和2个下调的关键DEG组成(图5B)。

SCI生物标志物的筛选和诊断性能
为了识别与SCI相关的可靠生物标志物,作者使用两种机器学习算法在枢纽DEG表达谱的基础上评估了SCI的特征基因。LASSO回归分析结果鉴定了三个基因作为特征基因(图5C)。SVM-RFE算法将总共8个基因识别为特征基因(图5D)。作者选择了三个重叠基因(ANO 10、BST 1和ZFP 36 L2)作为SCI的潜在生物标志物(图5E)。ROC曲线结果显示,三个基因的AUC值均大于0.96,表明这些潜在的生物标志物在GSE 151371数据集中均具有良好的诊断价值(图6A-C)。

临床验证
作者接下来验证了SCI组(n= 10)和HC组(n= 10)的外周血样品中生物标志物的表达。PCR结果显示,与HC相比,SCI患者中的ANO 10和BST 1表达显著更高,而ZFP 36 L2显著更低(P< 0.01;图7A-C)。验证样品中ANO 10、BST 1和ZFP 36 L2的AUC值分别为0.793(95%置信区间(CI)0.644-0.931)、0.810(95% CI 0.676-0.944)和0.870(95% CI 0.751-0.989)(图7D-F)。

脊髓损伤中免疫细胞比例及其与生物标志物的相关性
为了检查SCI和免疫细胞之间的关系,使用CIBERSORT方法探索免疫景观。SCI后,免疫细胞亚型的相对比例显著改变(图8A)。在所有差异富集的免疫细胞中,激活的自然杀伤细胞和调节性T细胞(Tregs)具有最高的正相关性(斯皮尔曼相关性= 0.92),而静息树突细胞和滤泡辅助T细胞具有第二强的正相关性(斯皮尔曼相关性= 0.85)(图8B)。与HC样品相比,SCI样品显示出明显较高比例的幼稚B细胞、浆细胞、单核细胞和中性粒细胞,而记忆B细胞、CD8+ T细胞、静息自然杀伤细胞、静息树突状细胞和嗜酸性粒细胞的比例明显较低(图8C)。

作者进一步探索了所选生物标志物与免疫细胞之间的相关性。ANO10与M0巨噬细胞、幼稚B细胞、中性粒细胞、M1巨噬细胞和活化肥大细胞呈正相关,与CD8+ T细胞、静息记忆CD4+ T细胞、静息自然杀伤细胞、记忆B细胞、活化记忆CD4+ T细胞和静息树突状细胞呈负相关。BST 1与初始B细胞、M1巨噬细胞、活化肥大细胞、M0巨噬细胞、中性粒细胞和γ δ T细胞呈正相关,与CD8+ T细胞、静息记忆CD4+ T细胞、静息自然杀伤细胞、记忆B细胞、静息树突状细胞和活化树突状细胞呈负相关。 ZFP 36 L2与静息记忆CD 4+ T细胞、记忆B细胞、CD 8+ T细胞、静息自然杀伤细胞、静息树突细胞和活化记忆CD 4+ T细胞正相关,与幼稚B细胞、M0巨噬细胞、活化肥大细胞、γ δ T细胞和浆细胞负相关(图9A-C)。


总结

作者建立了一个与SCI相关的miRNA-mRNA调控网络,并确定了三个生物标志物:ANO 10,BST 1和ZFP 36 L2。功能富集分析确定了与SCI免疫炎症反应相关的信号通路。作者确定了SCI患者外周血中17种免疫细胞类型的数量变化。ANO 10、BST 1和ZFP 36 L2与免疫细胞相关,对这些基因的进一步研究可能会发现SCI后神经功能恢复的新治疗靶点。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/177070