社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

5+单细胞+分型+机器学习+单基因+实验验证,想抄作业的速来学习!

生信分析手册 • 3 月前 • 105 次点击  

导语

今天给同学们分享一篇生信文章“The role of endothelial cell-related gene COL1A1 in prostate cancer diagnosis and immunotherapy: insights from machine learning and single-cell analysis”,这篇文章发表在Biol Direct期刊上,影响因子为5.7。


结果:


内皮细胞浸润程度与PRAD患者的预后有关
在TCGA-PRAD数据集中,作者通过利用MCP计数器算法检查了PRAD样品中不同免疫细胞类型的浸润水平的变化,而不是正常前列腺样品。作者的检查揭示了内皮细胞、中性粒细胞、骨髓树突细胞、巨噬细胞/单核细胞、单核细胞、NK细胞和T淋巴细胞的浸润水平的显著差异(图1A-B)。然后将每个样品的浸润肿瘤的免疫细胞的丰度百分比描绘为热图(图1C)。此外,Kaplan-Meier(KM)曲线显示了各种免疫细胞类型与患者预后之间的关系。特别值得注意的是,B细胞和内皮细胞浸润的水平与患者结果显著相关;特别是,这两种免疫细胞类型的水平增加与更严重的疾病相关(图1D)。由于PRAD和正常前列腺样本之间的B细胞浸润水平没有观察到显著差异,因此作者未来的研究将主要集中在内皮细胞上。

识别关键内皮细胞基因
单细胞RNA测序(scRNA-seq)是研究肿瘤微环境(TME)内细胞类型组成异质性的有力技术。TISCH 2是一个专门的scRNA-seq数据库,专注于TME相关数据集。利用TISCH 2数据库,作者分析了GSE 141445数据集中各种免疫细胞的浸润差异。采用单细胞分析技术,将GSE 141445数据集中的样品分类为八个不同的细胞组(图2A-B)。鉴定的主要细胞类型是上皮细胞,其次是内皮细胞(图2C-D)。然后,作者收集了表现出大于1的Log 2倍数变化(Log 2FC)和小于0.5的p值的基因,随后针对来自TCGA-PRAD数据集的临床信息对其进行筛选。最终,作者确定了12个与内皮细胞相关的差异预后基因。小提琴图说明了这12种基因在不同免疫细胞类型中的表达水平(图2E-F)。最后,通过箱形图和森林图展示了这12个内皮细胞相关基因的表达和预后差异(图2G-H)。

聚类分析
近年来,精准医学的概念推动了个体研究对象之间的亚组分型研究。在本研究中,作者通过聚类分析进一步研究了内皮细胞相关基因的功能。基于累积分布函数(CDF)曲线和CDF δ面积曲线,作者选择将TCGA-PRAD样本分为两个聚类。此外,作者通过识别与最低模糊聚类比例(PAC)得分相对应的K值来推导出理想的聚类数。PAC测量中间部分,其定义为一致性指数位于范围(u1,u2)∈[0,1]内的样本对的百分比。在这种情况下,u1接近0,u2接近1(例如,u1 = 0.1,u2 = 0.9)。PAC值的减少表示一个更高的水平的中间区域和不一致的分类在置换聚类实验中的频率较低。总之,作者认为K = 2是最佳分组选项(图3A-D)。作者还分析了亚型1和亚型2之间的12个内皮细胞相关基因的表达差异,通过热图和箱形图呈现结果(图3E-G)。随后,作者检查了两个集群中患者的无进展生存期(PFS)和无病生存期(DFS)的差异,揭示了集群2中的患者经历了更差的PFS和DFS(图3H-I)。鉴于基因突变在肿瘤进展中的重要作用,作者还分析了两个亚型中具有高突变率的前十个基因(图3J-K)。最后,作者使用KEGG分析探讨了聚类1和聚类2中患者预后差异的潜在机制。作者的研究结果表明,cAMP信号通路在亚型1中显著富集,而PI 3 K-AKT信号通路和多种免疫相关通路在亚型2中富集(图3L-M)。

PRAD患者免疫治疗相关的内皮细胞相关基因
肿瘤的生长和发展与其微环境中的免疫细胞密切相关[17,18]。分析免疫浸润可以增强作者对各种类型的免疫细胞如何影响肿瘤发生、进展和转移的理解。在作者的分析中,作者观察到内皮细胞、髓样树突细胞、巨噬细胞/单核细胞、单核细胞、B细胞、NK细胞、CD 8 + T细胞和T细胞总体存在显著差异(图4A)。随后,作者检查了两个亚型中免疫检查点相关基因的表达差异,鉴定了ITPRIPL 1、SIGLEC 15、TIGIT、PDCD 1 LG 2、PDCD 1、LAG 3、HAVCR 2、CTLA 4和CD 274中的显著变化(图4B)。作者使用热图进一步说明了不同亚型中免疫检查点基因的表达差异(图4C)。免疫检查点阻断(ICB)疗法已经改变了人类癌症的治疗前景,作者采用了肿瘤免疫功能障碍和排斥(TIDE)算法来预测不同亚型对潜在免疫检查点抑制剂的反应。作者的研究结果表明,与聚类1相比,聚类2表现出显著更高的TIDE评分(图4D)。TIDE采用一组基因表达标记物来评估肿瘤逃避免疫反应的两种不同机制:肿瘤浸润细胞毒性T淋巴细胞(CTL)的损伤和免疫抑制元件对CTL的排斥。TIDE评分升高与ICB治疗有效性降低和ICB治疗后生存期缩短相关。因此,分类在聚类2中的个体预期具有不太有利的ICB结果,表明与该聚类相关的严峻预后。最后,作者检查了不同临床阶段的患者在不同聚类中的分布。作者的结果揭示了关于T分期、N分期和各种肿瘤结果的聚类1和聚类2的群体分布的显著差异(图4E-H)。

建立诊断模型
为了能够及时识别PRAD患者,作者的目标是创建一个专注于这种情况的诊断模型。最初的训练阶段使用了TCGA-PRAD数据集,而随后的验证则包含了其他四个数据集:GSE 14206、GSE 46602、GSE 6956和GSE 71016。作者首先说明了与内皮细胞相关的12个基因对PRAD发作的预测潜力,在ROC曲线的帮助下在五个数据集中对此进行分析(图5A)。在此之后,作者结合了不同的机器学习技术来推进诊断PRAD的预测模型的开发。在几种机器学习组合中,plsRglm算法对在构建模型方面被认为是最成功的(图5B)。TCGA-PRAD训练数据集的AUC达到0.917,而验证数据集GSE 14206、GSE 46602、GSE 6956和GSE 71016的AUC值分别为0.693、0.742、0.808和0。715,分别。该模型通过plsRglm算法采用12种内皮细胞相关基因(图5C)。

机器学习分析识别关键内皮细胞调控基因
基于MCP计数器算法,作者确定了TCGA-PRAD数据集中每个样本的内皮细胞浸润水平。分析比较12个内皮细胞相关基因与内皮细胞浸润评分的相关性。作者的结果表明,除S100 A13外,其余基因与内皮细胞浸润水平之间没有明显相关性;但其他11个内皮细胞相关基因均与内皮细胞浸润评分正相关(图6A)。随后,作者采用XGBoost算法和随机森林算法,通过对患者的PFS结果进行分组,对内皮细胞相关基因的重要性进行排名。此外,作者利用GOsemsim算法基于它们的相似性对基因进行排序(图6B-D)。作者的分析结果突出了COL 1A 1的关键作用,发现其与各种免疫细胞的浸润水平正相关(图6E)。此外,表现出高表达水平的COL 1A 1的患者表现出对免疫检查点阻断(ICB)治疗的不良应答(图6F)。最后,作者根据COL 1A 1表达对TCGA-PRAD数据集进行分层,并分析不同临床阶段患者的分布(图6G-K)。

COL 1A 1的功能分析
在TCGA-PRAD数据集中,作者最初根据COL 1A 1的中值表达水平对样品进行分类,将它们分成高和低COL 1A 1表达的组,然后进行差异分析(图7A-B)。KEGG分析的结果表明,在上调的基因中,诸如PI 3 K-Akt信号通路、细胞因子-细胞因子受体相互作用、EGFR酪氨酸激酶抑制剂抗性和内分泌抗性的通路显著富集(图7C)。相反,在下调的基因中,神经活性配体-受体相互作用等途径被鉴定为富集的(图7D)。基于这些发现,作者建立了一个显着的关系COL 1A 1和耐内分泌治疗以及EGFR酪氨酸激酶抑制剂。因此,作者继续分析COL 1A 1与雄激素受体(AR)和EGFR之间的相关性。作者的结果表明,COL 1A 1与AR和EGFR均呈正相关。由于AR和EGFR被认为是转录因子,作者研究了COL 1A 1是否在转录水平上受到AR和EGFR的影响,这被作者的发现所证实(图7E-H)。此外,作者通过分子对接分析探索了COL 1A 1和AR靶向药物之间的联系。对接研究的结果表明,COL 1A 1对比卡鲁胺和恩杂鲁胺均表现出显著的结合亲和力(图7I)。

COL 1A 1、AR和EGFR相关性的多重免疫荧光染色分析
为了深入研究COL 1A 1,AR和EGFR之间的关系,作者利用PRAD组织芯片进行了广泛的分析。作者的研究涉及检查100个PRAD组织样本,从评估COL 1A 1和AR之间的联系开始。作者呈现了显示两个样品的COL 1A 1和AR的免疫荧光图像,以及显示另一对样品的COL 1A 1和EGFR的图像(图8A-B)。散点图显示了COL 1A 1和AR之间的关系,表明正相关,系数为0.351(图8C)。以类似的方式,COL 1A 1显示出与EGFR的正相关性,达到0.328的系数(图8D)。最后,作者检查了EGFR和AR之间的关系,证实AR也表现出与EGFR的正相关性(图8E)。

COL 1A 1的表达分析
在这一部分中,作者分别说明了PRAD中关键基因COL 1A 1与内皮细胞相关基因的表达变化(图9A)。箱形图表明,与正常组织相比,PRAD中COL 1A 1表达显著增加(图9B)。此外,作者检查了不同T期和N期的COL 1A 1表达,表明COL 1A 1水平在晚期T期和升高的N期都更高(图9C-D)。

COL1A1的敲低抑制PRAD进展
最初,作者下调了PRAD细胞系DU 145和PC 3中COL 1A 1的表达。作者的发现表明siCOL1A1#1在抑制DU 145和PC 3中的COL 1A 1表达方面更有效(图10A)。作者进行了CCK 8和集落形成测定,以评估COL 1A 1敲低后PRAD细胞增殖能力的变化。作者的实验证明,沉默COL 1A 1显著降低了DU 145和PC 3细胞系的增殖(图10B-E)。鉴于内皮细胞和血管生成之间的关系,作者还研究了COL 1A 1敲低对血管生成过程的影响。结果显示,沉默COL 1A 1显著抑制PRAD的血管生成潜力(图10F)。此外,作者检查了COL 1A 1敲低对DU 145和PC 3的转移能力的影响。作者的数据证实,在引入siCOL1A1#1后,DU 145和PC 3的转移潜力显著降低(图10G-J)。CD 31已被鉴定为PRAD内皮细胞的标志物,而VEGFC和VEGFR 1已被证明对PRAD内皮细胞起关键的调节作用。相关性分析表明COL 1A 1与CD 31、VEGFC和VEGFR 1之间存在正相关性(图10K)。此外,在DU 145细胞中,作者分析了siCOL1A1#1对VEGFC和VEGFR 1 mRNA表达水平的影响。作者发现敲除COL 1A 1抑制了VEGFC和VEGFR 1的表达水平(图10L)。此外,作者分析了COL 1A 1敲低对CD 31阳性细胞数量的影响,揭示了COL 1A 1敲低后它们的数量显著减少(图10M)。总的来说,这些发现证实了COL1A1的敲低通过调节内皮细胞动力学来抑制PRAD进展。

总结

单细胞分析确定了12个与内皮细胞相关的差异预后基因。聚类分析证实了内皮细胞相关基因与前列腺癌预后和免疫治疗反应之间存在强相关性。使用各种机器学习技术开发的诊断模型证明了这12个基因在前列腺癌诊断中的显著预测能力。此外,基于患者的预后信息,多个机器学习分析强调了COL1A1的关键作用。免疫荧光分析结果证实,COL1A1在前列腺癌中高表达,与AR和EGFR均呈正相关。体外实验证实,降低COL1A1表达水平可抑制PRAD进展。对这篇文章感兴趣的老师,欢迎扫码咨询!


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178011
 
105 次点击