社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

共病+机器学习+分子对接,想做共病思路的可作为模版!!

生信分析手册 • 2 月前 • 148 次点击  

导语

今天给同学们分享一篇生信文章“The shared mechanism and potential diagnostic markers for premature ovarian failure and dry eye disease”,这篇文章发表在Sci Rep期刊上,影响因子为3.8。


结果:


全球环境展望信息
从 GEO 中筛选出与 DED 和 POF 相关的数据集,获得符合研究条件的基因芯片数据集GSE44101(微阵列平台GPL1261)、GSE39501(微阵列平台GPL6887)、GSE171043(微阵列平台GPL28441)和GSE48873(微阵列平台GPL13607)。这些数据集包含正常样本和疾病样本。经过筛选,作者选择了与 DED 相关的数据集GSE44101进行分析,并选择了GSE171043进行验证;选择了与 POF 相关的数据集GSE39501进行分析,并选择了GSE48873进行验证。


DED 和 POF 的加权基因共表达网络分析(WGCNA)
对GSE44101和GSE39501数据集的数据进行预处理后分析,得到样本聚类。选取β值分别为20和9作为构建共表达网络的软阈值(图2A, B),满足以下条件:①无标度拟合指数˃ 0.8;②网络的平均连通性良好;③网络符合非标度拓扑网络分布。模块识别采用动态切树算法和合并相似模块的方法。模块内的基因组高度相关。最终的GSE44101数据集获得了 33 个模块,GSE39501数据集获得了 50 个模块(图2C、D)。将GSE44101和GSE39501数据集的模块与样本的临床特征(治疗和对照)相关联,并将 MM 阈值设为 0.8,GS 阈值设为 0.1,权重阈值设为 0.1,作者发现GSE44101数据集 darkolivegreen4 模块与组织的临床特征高度相关(r = 0.99,P= 0.00)。因此,作者选择了绿色的GSE44101数据集 darkolivegreen4 模块和GSE39501数据集 deeppink1 模块进行进一步的关键基因筛选分析。通过分析 WGCNA,考虑到 DED 和 POF 的交集,得到了 151 个共表达基因(图4A)。


DED 和 POF DEGs 分析
GSE44101和GSE39501的差异基因表达分析显示,GSE44101 中有 1089 个 DEGs,其中 553 个基因上调,536 个基因下调。在GSE39501 中发现了 166 个 DEGs,其中 131 个基因上调,35 个基因下调(图3)。如图4B和 C 所示,GSE44101和GSE39501有 10 个共同的 DEGs,其中 9 个基因上调,即BC048546、LCN2、LTF、PADI1、HDC、PLVAP、GNG13、S100A8 和 C3,1 个基因下调,即 MFAP4。

富集分析和功能注释
在合并和剔除重复基因后,结合从 WGCNA 和差异表达基因分析中获得的所有基因,得到了 158 个 DED 和 POF 合并基因。使用 R 对基因进行了富集,以进一步明确筛选出的基因的功能及其在信号通路中的作用。结果表明,所发现的基因主要富集在DNA复制、细胞周期、糖基磷脂酰肌醇(GPI)锚生物合成、恰加斯病(美洲锥虫病)、TNF信号通路、利什曼病、卡波西肉瘤相关疱疹病毒感染、IL-17信号通路中、如图 5 所示,其主要基因的功能主要体现在染色体、染色体部分、细胞周期、染色体区、染色体、着丝粒区、有丝分裂细胞周期、浓缩染色体、着丝点、浓缩染色体着丝点、浓缩染色体、着丝粒区。

PPI 网络构建和模块分析
将从 WGCNA 和差异表达基因分析中获得的基因导入 STRING10.0 数据库,并将物种设为 "智人",以获得 DED 和 POF 的共病基因。如图6A所示,利用 PPI 对这些基因进行了分析,筛选出了关键的共病基因。使用分子复合体检测(MCODE)插件提取了两个密切相关基因的聚类模块(图6B、C)。聚类 1 包含 7 个节点和 19 条边。聚类 2 包含 10 个节点和 32 条边。


中心基因的选择和分析
此外,使用 CytoHubba 插件以 MCC、MNC 和 Degree 值为参考标准进行网络分析,发现了 15 个关键的枢纽基因,包括 CDC20、BIRC5、PLK1、CDCA8、TOP2A、MCM5、MCM6、MCM7、MCM2、CENPA、FOXM1、GINS1、TIPIN、MAD2L1 和 CDCA3(图6D、E、F)。随后,作者利用 GeneMANIA 数据库评估了共表达网络和枢纽基因的相关作用。网络结果显示,共表达占 46.7%,物理相互作用占 22.85%,预测占 18.15%,通路占 5.39%,共享蛋白结构域占 2.51%,遗传相互作用占 2.27%,共定位占 2.14%(图6G)。

中心基因表达的验证
利用 POF 相关数据集GSE48873和 DED 相关数据集GSE171043 验证了 15 个关键基因的表达水平。对数据集的每个子集进行了 t 检验。显著性水平设定为P<0.05。在此,作者发现在另一个 POF 相关数据集中表达了 PLK1、CDCA8、TOP2A、MCM5、MCM6、MCM2、CENPA、MCM7、TIPIN、GINS1、MAD2L1、CDCA3、BIRC5、FOXM1 和 CDC20,其中 MCM7、TIPIN、GINS1 和 MAD2L1 的表达水平明显更高(P< 0.05),而 CDC20 表达水平明显较低(P< 0.05),如图7 所示。此外,在另一个 DED 相关数据集中,CDC20、PLK1、TOP2A、MCM5、MCM6、MCM7、MCM2、CENPA、FOXM1、GINS1、TIPIN、MAD2L1、CDCA3 和 CDCA8 也有表达(图8)。因此,我们假设 CDC20、CDCA8、PLK1、TOP2A、MCM5、MCM6、MCM7、MCM2、CENPA、FOXM1、GINS1、TIPIN、MAD2L1 和 CDCA3 在 POF 和 DED 中同时存在。TIPIN、GINS1、MAD2L1 和 CDC20 也有不同程度的表达。

识别常见的 RNAs,构建微 RNAs (miRNAs) - 长非编码 RNAs (lncRNAs) 共享基因网络
研究人员从 miRanda、miRDB 和 TargetScan 这三个数据库中找出了与 DED 和 POF 相关的 210 个 miRNA 和 296 个 lncRNA。利用 SpongeScan 数据库匹配 miRNA,获得相应的 lncRNA 数据。通过将这些非编码 RNA 与共享基因相交,构建了 miRNA-lncRNA-基因网络。该网络由 57 个 lncRNA、174 个 miRNA 和一些常见基因组成,包括 14 个中心基因(BIRC5、FOXM1、CDCA8、CDCA3、MCM6、CENPA、TOP2A、MAD2L1、PLK1、MCM5、TIPIN、MCM2、GINS1 和 MCM7)(图9)。

药物预测和药物基因相互作用分析
利用 DGIdb 数据库进行预测,共得到 293 种预测药物,其中 BIRC5 对应 36 种预测药物,PLK1 对应 176 种预测药物,TOP2A 对应 80 种预测药物。作者构建了一个药物-基因相互作用网络(图10A),发现盐酸依达比星和 myricetin 是 TOP2A 和 PLK1 的常见候选药物。多柔比星、氟尿嘧啶、紫杉醇、表柔比星、喜树碱和染料木素是常见的 TOP2A 和 BIRC5 候选药物。根据上述研究,作者在排除抗肿瘤药物后,根据相互作用得分对这些药物进行了筛选。表1 列出了各枢纽基因相互作用得分最高的药物。其中,BIRC5 预测药物为缬癸昔布,PLK1 预测药物为amorfrutin A,TOP2A 预测药物为山柰素。中枢基因与预测药物之间的分子对接显示,中枢基因与对应药物的结合能小于0,表明两者可以自发结合。一般认为,能量越低,配体与受体的结合构象越稳定,发挥作用的可能性越大。分子对接结果分析表明,BIRC5 与缬癸昔布的结合能最低(- 5.51 kJ/mol),表明配体与受体的构象最稳定。对接结果见图10B、C、D。

建立机器学习模型
利用最小绝对收缩和选择算子(LASSO)回归算法和支持向量机递归特征消除(SVM-RFE)分析法,对这 15 个已识别基因进行了潜在标记物的发掘(图11)。在对GSE39501 中的枢纽基因进行 LASSO 回归算法分析时,CDC20、CDCA3、MCM5、PLK1 和 TOP2A 这五个特征基因被认为是与样本显著相关的特征基因。同样,在GSE44101 中,MAD2L1 和 TIPIN 这两个特征基因也被认为是特征基因。值得注意的是,在 SVM-RFE 分析中,GSE39501和GSE44101中的所有枢纽基因都被认定为特征基因。作者将这两个结果结合起来进行了中枢基因的接收者操作特征(ROC)分析,结果显示 CDC20、CDCA3、MCM5、PLK1、TOP2A、MAD2L1 和 TIPIN 作为特征基因具有良好的诊断性能,曲线下面积(AUC)为 1。

总结

DED 和 POF 的病理生物学涉及错综复杂的多因素相互作用,包括一系列基因靶点、通路、信号模式和调控框架。这些因素相互作用复杂,往往是双向的,既有协同作用,也有拮抗作用。包括 CDC20、BIRC5、PLK1、CDCA8、TOP2A、MCM5、MCM6、MCM7、MCM2、CENPA、FOXM1、GINS1、TIPIN、MAD2L1 和 CDCA3 在内的共轭基因,其过程包括 DNA 复制、细胞周期和 IL-17 信号通路,是这一生物镶嵌的核心,在催化一系列关键实体的生物合成方面起着关键作用。CDC20、MAD2L1 和 TIPIN 是这组基因中的焦点,它们与异常凋亡和衰老密切相关。这些基因的功能,无论是在激活还是抑制代谢途径方面,都是 DED 和 POF 发病机制中不可或缺的代谢多功能性的象征。


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176266
 
148 次点击