Py学习  »  机器学习算法

9+机器学习+单细胞+实验,想做高分,感兴趣,可以借鉴学习这篇文章哦!

生信分析手册 • 1 年前 • 293 次点击  

导语

今天给同学们分享一篇生信文章“Novel Implication of the Basement Membrane for Breast Cancer Outcome and Immune Infiltration”,这篇文章发表在Int J Biol Sci期刊上,影响因子为9.2。


结果:

建立BMscore的预后BM基因选择策略
通过BM基因集与研究中使用的三个数据集的交集,作者获得了203个BM基因(图1A)。然后,从数十个候选基因中进行差异表达分析(|log2FC|>1且FDR<0.05),得到了在TCGA-BRCA中明显上调或下调的77个BM基因。结果以热图(图1B)和火山图(图1C)的形式展示。同时,一个肿瘤图显示了具有最多体细胞突变的前20个BM基因(图1D)。然后,作者在TCGA-BRCA中进行了单变量分析,以获取12个更有可能对进一步考虑至关重要的BM基因(图1E)。更重要的是,作者使用LASSO Cox回归分析确定了六个关键的BM基因,包括LOXL1、FBLN1、FBLN5、SDC1、ADAMTS8和PXDNL(图1F、G)。

作为进一步解剖的关键标记基因,作者分别探索了它们在TCGA-BRCA中的相关性、表达水平和预后。首先,一个Circos图展示了6个BM基因的染色体位置和表达水平,而一个交互网络总结了所示基因的相关性(图1H,I)。根据TCGA-BRCA数据集,作者发现LOXL1、SDC1和PXDNL在乳腺癌中高表达,而FBLN1、FBLN5和ADAMTS8的表达水平低于正常乳腺样本(图S1A)。通过RT-qPCR进一步验证了6个BM基因在乳腺癌细胞系和匹配的乳腺癌组织中的表达下降或增加(图2A,B)。对于每个基因,根据不同的乳腺癌分子亚型,存在不同的表达水平。

在TCGA-BRCA的Kaplan-Meier生存分析中,高表达PXDNL(p<0.0001)和SDC1(p=0.0007),以及低表达FBLN1(p=0.0025)、FBLN5(p=0.0029)、LOXL1(p=0.00037)和ADAMTS8(p<0.0001)的乳腺癌患者的生存情况明显不利(图S1B)。对于无病生存(DFS)分析(图S2A),作者发现FBLN5(p=0.014)、PXDNL(p=0.0065)和SDC1(p<0.0001)水平较高,而FBLN1(p=0.023)、FBLN5(p=0.014)和ADAMTS8(p=3e-04)水平较低与不良预后相关。同样,乳腺癌患者的PXDNL(p=0.00011)和SDC1(p<0.0001)表达水平增加,而FBLN1(p=0.033)和ADAMTS8(p=0.00017)表达水平降低,倾向于有较短的疾病特异性生存(DSS)时间(图S2B)。此外,进展无病生存(PFS)的Kaplan-Meier生存曲线显示,高肿瘤表达PXDNL(p=0.0001)和SDC1(p<0.0001),以及低肿瘤表达FBLN1(p=0.0087)、FBLN5(p=0.026)和ADAMTS8(p<0.0001)的患者生存概率较差(图S2C)。在大部分生存分析中,考虑PXDNL和SDC1作为BMscore标志的关键组成部分是合理的。最终,通过以下公式生成了与骨髓相关的预后指数BMscore:BMscore = SDC1的表达 * 0.1625 + PXDNL的表达 * 0.0942 - ADAMTS8的表达 * 0.1399 - LOXL1的表达 * 0.1176 - FBLN5的表达 * 0.0328 - FBLN1的表达 * 0.0189。
BMscore在预测乳腺癌患者预后方面的有效性
为了验证BMscore在预测乳腺癌患者生存概率方面的适用性,可以根据中位数将TCGA-BRCA训练集和两个验证集(METABRIC和GSE96058)的患者分为高BMscore亚组和低BMscore亚组,并用二维PCA图表进行可视化(图3A)。如预期,所有队列中随着BMscore的增加,乳腺癌患者的死亡率显著增加(图3B、C)。此外,BMscore较高的患者在KM分析中显示出更差的OS概率(图3D,TCGA-BRCA,p=4.015e-04;METABRIC,p=3.908e-08;GSE96058,p=4.649e-08),进一步加强了上述结论。由于已有报道称BM参与肿瘤侵袭和转移,作者还在TCGA-BRCA中进行了DFS、DSS和PFS的KM生存分析。结果显示,BMscore较高的乳腺癌患者死亡率显著增加,这表明DFS(图3E,p=1.342e-02)、DSS(图3F,p=1.425e-02)和PFS(图3G,p=6.357e-03)更为不利。

对涉及乳腺癌的BMscore标志的全面洞察
由于BMscore已被证明对乳腺癌患者的临床预后具有预测价值,作者进一步揭示了BMscore与乳腺癌的其他特征之间的关联。对于临床病理参数,研究结果表明,在TCGA-BRCA中,BMscore与T分期、分期和分子亚型之间存在显著相关性(图4A、D),在METABRIC中与阳性淋巴结、分期和亚型之间存在相关性(图4B),在GSE96058中与阳性淋巴结、肿瘤大小和亚型之间存在相关性(图4C)。总体而言,BMscore水平与乳腺癌的临床特征之间存在显著关系,这意味着高BMscore的患者更有可能出现淋巴结转移和严重的临床分期。

由于根治手术后辅助治疗反应不佳,一些患者的生存时间通常较短。因此,作者探讨了BMscore是否具有预测乳腺癌临床治疗反应的能力。TCGA-BRCA的结果呈现了一个意外的发现,表明高BMscore与化疗(图5A,p=6.409e-03)、内分泌治疗(图5B,p=4.968e-03)以及放疗(图5C,p=2.116e-01)的治疗抵抗性显著正相关。同样,METABRIC的验证结果显示,高BMscore人群对化疗(图5D,p=1.39e-03)、内分泌治疗(图5E,p=2.853e-04)以及放疗(图5F,p=1.303e-07)的反应性较低。从这个角度来看,BMscore标志可以有效地识别治疗抵抗性乳腺癌患者。

乳腺癌中BM分数的独立预后价值的鉴定和评估
总结来说,BMscore签名在预测乳腺癌患者的预后和治疗反应方面表现良好。然而,仍需要进一步研究以确定BMscore是否可以作为独立的不良预后预测因子,影响乳腺癌患者的生存。除了BMscore外,还将多个风险因素(年龄、T分期、N分期、M分期和PAM50亚型)一起纳入TCGA-BRCA进行单变量和多变量Cox分析,以评估OS。单变量分析确定了BMscore(p<0.001)、分期(p<0.001)、年龄(p=0.003)、N分期(p<0.001)和M分期(p<0.001)作为OS的独立风险因素(图6A),随后,年龄(p=0.005)和BMscore(p<0.001)在多变量分析中仍然作为OS的独立预测因子(图6B)。然后,构建了一个包含这两个因子的预后评分表,用于预测不良的OS(图6C)。校准曲线(图6D)和TCGA-BRCA中的DCA曲线(图6E)用于评估预测性能和临床实用性,结果显示该诊断图能够为预后提供有价值的判断。

一贯地,ROC曲线被用来表示诺模图的判别能力。在TCGA-BRCA中,2年、3年和5年的OS的AUC值分别为0.704、0.719和0.690。在METABRIC中,2年、3年和5年的OS的AUC值分别为0.578、0.568和0.587。在GSE96058中,2年、3年和5年的OS的AUC值分别为0.726、0.722和0.694。这些结果令人信服地证明了诺模图在预测所有三个队列中的OS方面具有预测能力(AUC > 0.5)(图6F)。事实上,作者还观察到诺模图在预测TCGA-BRCA中的其他生存结果方面具有良好的敏感性和特异性,包括DFS(图6G,2年、3年和5年的AUC值分别为0.656、0.638和0.643)、DSS(图6H,2年、3年和5年的AUC值分别为0.741、0.690和0.670)和PFS(图6I,2年、3年和5年的AUC值分别为0.707、0.646和0.611)。在这一点上,作者得出结论,BMscore可以作为乳腺癌的独立预后指标。
BMscore对乳腺癌免疫微环境的影响不可忽视
鉴于肿瘤免疫微环境在乳腺癌中的重要作用,作者接下来评估了BMscore对肿瘤免疫浸润的影响。根据ESTIMATE算法,高stromal score和ESTIMATE score表明高BMscore肿瘤中有更多的基质细胞浸润(图7A)。值得注意的是,不同BMscore亚组之间的免疫得分没有显著差异。这一发现揭示了高BMscore的乳腺肿瘤具有较低的纯度,可能导致该亚群体的不良预后。

尽管骨髓(BM)和免疫细胞都是肿瘤微环境的重要组成部分,但它们之间的联系仍然不明确,这促使作者进行了后续分析。使用CIBERSORT算法,作者推断了不同BM得分水平的乳腺癌样本中22种免疫细胞的浸润水平,这在所有三个队列中都有所体现。在TCGA-BRCA的高BM得分组中,作者观察到浸润的M0巨噬细胞、M2巨噬细胞和静止的NK细胞显著增加,而天然B细胞、静止的树突状细胞、静止的肥大细胞、单核细胞、活化的NK细胞、静止的CD4记忆T细胞和CD8 T细胞的浸润显著减少(图7B)。结合METABRIC(图S3A)和GSE96058(图S4A)的结果,可以总结出高BM得分的乳腺癌中存在M0巨噬细胞、M2巨噬细胞和调节性T细胞的增加浸润,这进一步证实了BM的致癌和免疫抑制作用。
同时,作者分析了BMscore水平与免疫检查点和细胞因子表达之间的相关性。结果显示,高BMscore表示免疫检查点分子的上调表达,包括CTLA4、IDO1、ICOS和PVR,这些结果来自于TCGA-BRCA(图7C)、METABRIC(图S3B)和GSE96058(图S4B)的综合数据。以上线索表明,高BMscore的患者可能对免疫检查点阻断治疗更为敏感,尤其是抗CTLA4治疗。在细胞因子方面,作者注意到TNF、IL27和IL1B在高BMscore亚组中高度表达,而在整合所有队列数据后,IL33和IL6明显减少(TCGA-BRCA,图7D;METABRIC,图S3C;GSE96058,图S4C)。综上所述,结果揭示了肿瘤促进细胞因子的表达对于高BMscore的乳腺癌患者的预后特征具有贡献作用。
接下来,作者使用单细胞RNA转录组数据探索了乳腺癌中BMscore的详细分布。作者对GSE176078中的主要细胞类型进行了注释,然后发现癌症上皮细胞、CAF和浆细胞在BMscore方面与其他细胞类型显著不同(图8A)。由于乳腺癌有多个亚型,作者筛选出细胞计数少于2000的患者,并使用桑基图显示了三种乳腺癌亚型的患者比例以及每个患者中每种细胞类型的比例(图8B)。小提琴图清晰地展示了不同细胞类型之间BMscore的差异,始终显示肿瘤细胞的BMscore较高(图8C)。然后,点图可视化了每种细胞类型中六个模型基因的表达情况,结果与先前的描述一致(图8D)。由于CAF细胞的BMscore差异显著,作者进一步对CAF细胞进行分类注释,并发现大多数具有较高BMscore的细胞被归类为类似于myCAF的细胞,这些细胞主要集中在乳腺肿瘤的浸润部分(图8E)。此外,为了研究癌症上皮细胞的内部异质性与BMscore和模型基因之间的关系,作者将癌症上皮细胞分为高和低细胞周期组,并显示这些组中的BMscore分布和模型基因的表达(图8F,G)。

乳腺癌中BMscore和EMT活性之间存在正相关关系
BM损失被认为是导致肿瘤恶性转化的一个重要步骤 37 ,这促使作者检查BM评分与EMT之间的相关性。在功能富集分析中,高BM评分组中富集的标志性通路包括顶部连接、凝血、上皮间质转化、糖酵解和mTORC1信号通路(图9A)。此外,高BM评分组的GO术语包括表皮细胞分化、表皮发育、细胞外基质结构成分、角质细胞分化和皮肤发育(图9B)。此外,KEGG富集分析显示高BM评分与谷氨酸能突触、IL-17信号通路、血小板活化、脂肪细胞中脂解的调节和金黄色葡萄球菌感染相关(图9C)。值得注意的是,这些结果为乳腺癌进展和转移中BM的重要性提供了线索。

由于BM缺陷使患者容易发生肿瘤细胞转移,而EMT在乳腺癌转移中起着重要作用 38 ,作者想知道BM评分和EMT活性之间是否存在关联。通过相关分析的散点图(图9D),作者发现EMT通路与FBLN1的表达呈强正相关(R = 0.579,p = 1.711463e-78),与FBLN5的表达呈正相关(R = 0.475,p = 9.464759e-50),与LOXL1的表达呈正相关(R = 0.619,p = 2.630634e-92),以及与SDC1的表达呈正相关(R = 0.411,p = 2.047051e-36)。
结合作者早期的发现,EMT信号通路在高BMscore组中富集,作者假设BMscore与EMT水平呈正相关。为了验证作者的猜想,作者首先检测了10个人类乳腺癌样本中6个包含BMscore基因的mRNA水平(图10A)。随后,使用先前描述的公式计算了每个样本的BMscore。作者选择了BMscore最高的三个样本和BMscore最低的三个样本,对这些肿瘤的冰冻切片进行免疫组化检测,以检测Ki-67和几种EMT标记物(包括slug、vimentin、N-cadherin和ZO-1)的蛋白水平(图10B)。令人意外的是,作者发现这些蛋白在高BMscore组织中相对较丰富,揭示了BMscore与EMT活性之间的强正相关关系。因此,BMscore较高的乳腺癌患者可能面临更大的EMT介导的转移风险。

SDC1在BMscore中扮演关键角色,并且在乳腺癌中起到肿瘤促进作用

通过对以上所有发现的综合分析,作者确定SDC1是与BMscore标志相关的关键基因,并在体外进行了额外的实验。通过siRNA介导的沉默,MDA-MB-231和MCF-7细胞中的SDC1 mRNA水平降低(图11A)。CCK8细胞增殖实验显示,SDC1减少显著抑制了MDA-MB-231和MCF-7细胞系的生长(图11B)。同样,SDC1的减少通过划痕愈合实验(图11C)和Transwell迁移实验(图11D)在乳腺癌细胞中引起了迁移抑制。此外,通过检测siRNA转染细胞中的EMT标志物蛋白水平,验证了SDC1改变是否导致了EMT标志物基因的变化。正如预期的那样,SDC1沉默抑制了snail、slug、N-钙粘蛋白和ZEB1的蛋白表达,而E-钙粘蛋白的表达相应增加(图11E)。到目前为止,作者的数据证实了SDC1在乳腺癌的EMT相关进展中的关键作用。


总结

总之,本研究中呈现的与骨髓相关的基因签名是一种实用的预后指标,可以显著改变乳腺癌患者生存结果的评估。此外,乳腺癌患者的临床组织样本验证了 BMscore 与 EMT 活性之间的强正相关性,进一步加强了基底膜在乳腺癌中的新颖意义。


往期推荐

                                                                                                                      


纯生信选刊


• 纯生信文章的春天!

• 选刊正确=成功发表!


非肿瘤生信


• 6+非肿瘤代谢思路

• 非肿瘤联合铁死亡生信思路


预后模型


• 7+乳酸相关预后模型

• m7G甲基化+肿瘤生信思路


单基因生信


• 8+单基因干湿结合生信思路

• 单基因突变和淋巴结转移


单细胞系列


• 7+的脂肪细胞+单细胞测序

• 单细胞+Bulk seq生信思路

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/171673