2024年7月22日,来自哈佛医学院生物医学信息学系的Marinka
Zitnik团队在《Nature Methods》上发表了一篇题为“Contextual AI models for single-cell protein biology”的研究论文。文章介绍了PINNACLE (Protein Network-based Algorithm for Contextual Learning),一种能够生成特定生物学上下文下蛋白质表示的几何深度学习模型。
该模型利用多器官单细胞图谱,学习上下文化的蛋白质相互作用网络,从156种细胞类型背景中生成394,760种蛋白质表示。PINNACLE不仅能识别不同细胞类型的蛋白质功能,还能够精确预测细胞类型特异性的治疗靶点,显著优于当前的无上下文算法。该研究为蛋白质功能解析和分子治疗开发提供了一个崭新的视角,有望推动多样化生物学背景下的基础模型的广泛应用。
蛋白质是细胞的功能单位,它们通过相互作用执行多种生物功能。随着高通量技术的发展,科学家们得以绘制出大规模的蛋白质相互作用图谱。这些图谱为理解蛋白质的结构、预测功能注释以及指导治疗靶点的设计提供了宝贵的数据资源。近年来,蛋白质表示学习方法已经成为建模蛋白质的主流策略。这些方法能够通过整合多种数据源,将蛋白质相互作用网络解析到不同组织和细胞类型的层面,从而扩展了对蛋白质功能的理解。
现有的蛋白质表示学习方法可以预测多细胞功能、设计靶向结合蛋白以及发现新的蛋白质相互作用。然而,蛋白质在不同的生物学情境下可能具有截然不同的功能。虽然几乎所有细胞都包含相同的基因组,但基因的表达和这些基因编码的蛋白质的功能却依赖于特定的细胞和组织情境,在这里我们称之为特定的生物学上下文。更重要的是,基因表达和蛋白质功能在健康状态和疾病状态之间也可能存在显著差异。因此,将生物学上下文纳入分析有助于更准确地表征蛋白质,并为特定生物学背景提供精确的见解。
然而,目前大多数深度学习方法所产生的蛋白质表示(或嵌入)是上下文无关的。这意味着每个蛋白质只有一个通用的表示,这种表示要么来自于单一背景,要么是多个背景的整合结果。这种上下文无关的蛋白质表示不能识别出蛋白质在不同细胞类型中的功能差异,从而限制了对多效性和细胞类型特异功能的预测。随着测序技术的发展,能够以单细胞分辨率测量基因表达,为解决这一挑战铺平了道路。单细胞转录组学图谱可以在多种细胞背景下测量基因的激活状态,通过基于注意力机制的深度学习,这些单细胞图谱可以增强基因调控网络的绘制,揭示驱动疾病进展的机制,并确定治疗靶点。
尽管如此,将蛋白质编码基因的表达整合到蛋白质相互作用网络中仍然存在挑战。现有的算法,包括蛋白质表示学习方法,都无法上下文化蛋白质的表示。为了解决这些问题,研究团队引入了PINNACLE(Protein Network-based Algorithm for Contextual Learning),这是一个面向特定情境的蛋白质理解模型。PINNACLE是一个几何深度学习模型,能够通过分析不同细胞情境中的蛋白质相互作用生成蛋白质表示。研究团队结合单细胞转录组学与蛋白质相互作用网络、细胞间的相互作用以及组织层级结构,生成针对每种细胞类型的高分辨率蛋白质表示。
与现有的方法不同,PINNACLE可以为每一种蛋白质在不同细胞类型中的激活状态生成独特的表示。通过生成394,760个情境化的蛋白质表示,研究团队展示了PINNACLE将蛋白质相互作用与156种细胞类型的蛋白质编码基因转录组上下文化相结合的能力。PINNACLE模型可以应用于多种任务,如增强三维蛋白质结构表示、分析药物在不同细胞类型中的作用、推荐特定细胞类型的治疗靶点、零样本方式检索组织层级结构以及执行情境特异的迁移学习。研究团队的工作展示了PINNACLE模型在不同情境中动态调整输出的潜力,这为构建面向多样生物学情境的基础模型铺平了道路。
图1:PINNACLE模型概述
研究团队构建了一个多尺度网络系统,包括蛋白质-蛋白质物理相互作用、细胞类型之间的通讯、细胞类型与组织之间的关系,以及组织之间的层级结构。具体步骤包括:
(1)蛋白质-蛋白质相互作用网络构建:研究团队为每种细胞类型创建了特定的网络,代表在该细胞类型中可能表达的蛋白质(或基因)之间的物理相互作用。具体而言,研究团队的方法是识别在特定细胞类型中相较于其他细胞显著表达的基因。首先,他们使用经过处理的Tabula Sapiens计数矩阵,计算每个基因在目标细胞类型中的平均表达值,并与其他所有细胞中的平均表达值进行比较。随后,研究团队应用Wilcoxon秩和检验,对两组平均基因表达进行统计分析。通过这种方法,研究团队筛选出激活程度最高的前K个基因,并重复上述步骤N次,最终筛选出在至少90%迭代中出现的基因。他们从全局蛋白质相互作用网络中提取这些基因对应的蛋白质,仅保留最大连通组件。
为了确保这些细胞类型在网络中的高质量表现,研究团队保留了包含至少1000个蛋白质的网络。为尽量减少构建蛋白质相互作用网络过程中信息的损失,他们未对细胞进行下采样(即未对每个细胞类型进行相同数量的采样)。
(2)元图中的细胞类型和组织关系:研究团队使用CellPhoneDB工具和数据库,通过检测细胞间显著表达的配体-受体对来确定细胞类型之间的相互作用。在元图中,细胞类型和组织形成一个网络,其中每对细胞类型间存在至少一个显著表达的配体-受体对时,细胞类型之间便形成一条边。根据CellPhoneDB的知识背景,研究团队在运行算法前对细胞进行了几何抽样,以保持生物复杂性的前提下,从庞大的数据集中高效地选取具有代表性的细胞子集。他们在每次运行中随机抽样25%的细胞,并重复100次以确保结果的稳健性。
为了进一步确定细胞类型与组织之间的关系,研究团队通过Tabula Sapiens元数据绘制细胞与其来源组织的连线,同时提取组织之间的关系节点,并将其所有上级节点连到BRENDA组织本体的根节点。最后,研究团队在元图的不同组成部分上进行了灵敏度和消融分析,以验证各成分的贡献。
PINNACLE是一种几何深度学习模型,能够基于多种细胞类型上下文下的蛋白质相互作用生成蛋白质表示。研究团队将模型训练在一个整合的上下文感知蛋白质相互作用网络集上,同时辅以捕捉细胞相互作用和组织层级结构的网络。PINNACLE可以生成针对蛋白编码基因活跃的细胞类型的上下文化蛋白质表示。与传统的上下文无关模型不同,PINNACLE为每种蛋白质在不同细胞类型上下文中生成多个特定的表示,同时还能生成细胞类型和组织层级的表示,从而多维度地理解蛋白质相互作用网络。
PINNACLE学习了蛋白质、细胞类型和组织的拓扑结构,通过优化一个统一的潜在表示空间,将不同的上下文特异性数据整合到一个上下文感知模型中,并在蛋白质、细胞类型和组织层面之间进行知识转移,提升上下文化表示的精准性。PINNACLE通过蛋白质、细胞类型和组织层次的注意机制,以及相应的目标函数,注入细胞和组织的结构信息。
概念上,物理相互作用的蛋白质对(即在输入网络中由边连接的蛋白质)被嵌入到相近的区域,同时,蛋白质会被嵌入到其对应的细胞类型上下文附近,但与无关上下文保持一定距离。这确保了同一细胞类型上下文中的相互作用蛋白质在嵌入空间中彼此接近,同时与其他细胞类型的蛋白质保持分隔,从而准确反映蛋白质、细胞类型和组织之间的复杂关系。
PINNACLE使用一系列专门设计的注意机制,在蛋白质、细胞类型和组织之间传递图神经网络信息。蛋白质级的预训练任务包括蛋白质相互作用的自监督链接预测和蛋白节点的细胞类型分类,这些任务帮助模型塑造一个包含上下文感知蛋白质相互作用网络和蛋白质细胞类型身份的嵌入空间。PINNACLE 的细胞类型和组织特异的预训练任务则专注于自监督链接预测,帮助学习细胞和组织的结构。通过注意力桥接机制,将细胞和组织的结构信息强制作用于蛋白质表示,确保了上下文化的蛋白质表示能够准确反映蛋白质相互作用网络的结构,以及元图中所代表的细胞和组织结构。
PINNACLE模型涵盖了156种细胞类型上下文,跨越62种不同层级的组织,最终构建出一个包含394,760个蛋白质表示、156个细胞类型表示和62个组织表示的多尺度统一嵌入空间。研究团队表明,PINNACLE可以学习到一个蛋白质在细胞类型上下文下进行定位的嵌入空间。
研究团队首先使用系统化方法SAFE31量化了PINNACLE蛋白质嵌入区域的空间富集,发现来自相同细胞类型上下文的蛋白质表示在嵌入空间中自组织形成富集区域。接着,研究团队通过计算细胞类型上下文间蛋白质表示的相似性,评估嵌入区域是否依据细胞类型和组织身份进行了区分。结果显示,同一细胞类型的蛋白质表示之间更为相似,而不同细胞类型的蛋白质表示差异显著。相比之下,未包含细胞或组织上下文的模型无法捕捉到细胞类型间的蛋白质表示差异。
此外,研究团队发现,作用于多种细胞类型的蛋白质表示彼此之间的相似性较低,这反映了这些蛋白质具有特定的细胞类型特异功能。通过计算蛋白质表示的相似性(即不同细胞类型上下文下蛋白质表示的余弦相似性),研究发现蛋白质表示的相似性与其活跃的细胞类型数量呈负相关(Spearman’s ρ = -0.9798;P < 0.001);在移除细胞和组织元图的模型中,该相关性明显减弱(Spearman’s ρ = -0.6334;P < 0.001)。
进一步地,研究团队还验证了蛋白质嵌入区域是否按组织层级组织。团队使用PINNACLE的组织表示进行零样本检索,并将组织本体论距离与组织嵌入距离进行对比。组织本体论距离定义为两个组织节点到最低共同祖先节点的最短路径长度之和,而组织嵌入距离是相应组织表示之间的余弦距离。结果表明,嵌入空间中的距离与组织本体论中的相应距离呈正相关(Spearman’s ρ = 0.36;P = 1.85 × 10⁻¹¹⁹;图3c),且组织嵌入距离的分布无法归因于随机效应(Kolmogorov–Smirnov双侧检验0.50;P < 0.001)。当随机打乱组织本体论后,嵌入空间中的距离相关性显著降低(Spearman’s ρ = 0.005;P = 0.349)。
图2:PINNACLE蛋白嵌入区域的富集
蛋白质-蛋白质相互作用(PPI)不仅依赖于蛋白质的三维结构构象,还受到蛋白质所处的细胞类型上下文的影响。然而,现有基于三维分子结构的人工智能模型生成的蛋白质表示缺乏细胞类型上下文信息。研究团队假设,整合细胞上下文信息可以更好地区分结合蛋白质和非结合蛋白质。由于三维分子结构提供了蛋白质相互作用的精确原子或残基接触信息,这些信息与PPI网络中的二元相互作用互为补充,因此研究团队预期基于上下文的蛋白质相互作用网络可以更有效地区分不同细胞类型中的结合和非结合蛋白质。由于当前尚无匹配结构生物学和基因组学数据的大规模数据集以进行系统分析,研究团队重点研究了在癌症免疫疗法中具有重要作用的PD-1/PD-L1和B7-1/CTLA-4的相互作用蛋白。研究团队比较了结合蛋白质(例如PD-1/PD-L1和B7-1/CTLA-4)和非结合蛋白质的上下文化和非上下文化蛋白质表示。通过将PINNACLE的蛋白质表示与基于三维结构的蛋白质表示相结合,研究团队生成了结合蛋白质和非结合蛋白质的上下文化表示;非上下文化表示则通过将三维结构表示与所有细胞类型上下文下的平均PINNACLE蛋白质表示相结合生成。
上下文化表示结合了三维结构和上下文感知的PPI网络,对结合和非结合蛋白质的评分分别为0.9690 ± 0.0049和0.9571 ± 0.0127。而PINNACLE的上下文特异性蛋白质表示(无三维结构信息)对结合和非结合蛋白质的评分为0.0385 ± 0.1531和0.0218 ± 0.1081;相比之下,非上下文化表示的评分为0.9789 ± 0.0004和0.9742 ± 0.0078。进一步的比较分析表明,结合蛋白质与非结合蛋白质之间的评分差距在PINNACLE的上下文化表示中分别为0.011(PD-1/PD-L1)和0.015(B7-1/CTLA-4),而在非上下文化表示中仅为0.003和0.006。
研究团队的结果表明,整合生物学上下文信息可以更好地区分特定细胞类型中的蛋白质相互作用,这提示PINNACLE的上下文化表示能够增强基于三维结构的蛋白质表示。对于免疫检查点蛋白的上下文依赖相互作用建模,可以加深对这些蛋白质在癌症免疫治疗中的应用理解。研究团队的基准测试结果进一步表明,整合上下文信息能够改善蛋白质相互作用的三维结构预测。
图3:PINNACLE的上下文表征评价
PINNACLE通过整合细胞和组织上下文生成的蛋白质表示,可以进一步进行下游任务的微调。研究团队假设,PINNACLE的上下文化潜在空间相比于非上下文化潜在空间,更能区分治疗靶点和无治疗潜力的蛋白质。研究团队聚焦于在具有细胞类型特异机制的治疗领域中,预测蛋白质在不同细胞类型下的治疗潜力。某些细胞类型在类风湿性关节炎(RA)和炎症性肠病(IBD)治疗领域的疾病发病机制中起到关键且独特的作用。当前这两类疾病均无治愈方法,而缓解症状的药物可能引发不良副作用。新一代RA和IBD疗法旨在靶向特定细胞类型,以最大化药效并最小化不良事件,通过直接影响受影响或负责任的细胞并避免对其他细胞的非靶向效应。研究团队采用PINNACLE模型以细胞类型特异的方式预测蛋白质的治疗潜力,并微调PINNACLE模型以预测RA和IBD疾病的治疗靶点。具体而言,研究团队对每个上下文化蛋白质表示进行二元分类,其中y = 1表示蛋白质是该治疗领域的候选治疗靶点,否则为y = 0。真实的阳性样本(y = 1)是那些被针对特定治疗领域至少完成了一期临床试验(第二期或更高)药物靶向的蛋白质,表明这些药物在初步人类队列中是安全且可能有效的。阴性样本(y = 0)则是那些可成药但未被研究用于该治疗领域的蛋白质。研究团队可以采用任何架构的二元分类模型,他们用于提名RA和IBD治疗靶点的结果是通过为每个治疗领域训练的多层感知机(MLP)生成的。
为评估PINNACLE的上下文化蛋白质表示,研究团队将其微调模型与三种非上下文模型进行比较。他们在非上下文参考蛋白质相互作用网络上应用随机游走算法和图注意力网络(GAT)。BIONIC模型是一种图卷积神经网络,专为非上下文多模态网络集成而设计。研究发现,PINNACLE对所有细胞类型上下文的蛋白质表示在RA和IBD疾病中均优于随机游走模型。44.9%(156个细胞类型中的70个)和37.5%(152个细胞类型中的57个)的蛋白质表示在RA和IBD疾病中优于GAT模型。尽管PINNACLE和BIONIC均能集成156个细胞类型特异的蛋白质相互作用网络,但PINNACLE在18.6%(156个细胞类型中的29个)和8.6%(152个细胞类型中的13个)细胞类型中优于BIONIC,突显了上下文化蛋白质表示的优势。
此外,研究团队还发现PINNACLE在其他指标上均优于这三种非上下文模型。研究结果表明,PINNACLE在RA和IBD治疗领域的预测结果并非仅仅源于细胞类型特异性PPI网络的节点度和靶点富集程度,进一步证明了PINNACLE在上下文化学习中的显著潜力。基准测试结果表明,将全球参考网络与先进的图表示学习技术(如GAT)结合,可以比单纯的网络随机游走方法产生更好的预测效果。像BIONIC这样的集成方法在数据整合上的优势进一步提升了性能,而像PINNACLE这样的上下文学习方法有望在特定上下文中提高模型表现并实现更精准的预测。
图4:用于治疗靶点优先级排序的微调背景化蛋白质表示。
已有研究表明,药物的作用因靶点在不同细胞类型中的表达和蛋白质的活性部位而有所不同。例如,针对CD19的嵌合抗原受体T细胞疗法在治疗B细胞恶性肿瘤方面非常有效,但却会引发较高的神经毒性。最近的一项研究发现,嵌合抗原受体T细胞会通过靶向脑血管细胞中的CD19表达产生脱靶效应,可能导致血脑屏障渗漏,引起神经毒性。研究团队假设,预测蛋白质成药性在不同细胞类型中有所差异,这些差异可以揭示细胞类型在特定治疗领域中的相关性。在PINNACLE的156个生物上下文中,研究团队分析了RA疾病最具预测力的细胞类型上下文。结果显示,CD4+辅助性T细胞、CD4+ αβ记忆性T细胞、CD1c+髓系树突状细胞、肠道内皮细胞和胰腺腺泡细胞是RA治疗靶点预测的关键细胞类型。免疫细胞在RA的疾病发病机制中起重要作用,如CD4+辅助性T细胞、CD4+ αβ记忆性T细胞和CD1c+髓系树突状细胞在预测任务中表现突出。RA患者通常伴有胃肠道(GI)症状,包括相关的GI自身免疫疾病或RA治疗的GI副作用。胰腺腺泡细胞可在急性胰腺炎期间表现为炎性细胞,这是RA患者可能出现的GI表现之一。除了GI表现外,RA患者中常见内皮功能障碍。尽管罕见,RA严重并发症类风湿性血管炎影响内皮细胞,并可在大肠、小肠、肝脏和胆囊中表现。
在IBD疾病中,最具预测力的细胞类型上下文包括CD4+ αβ记忆性T细胞、大肠上皮细胞、T滤泡辅助性细胞、浆母细胞和髓系树突状细胞。肠道屏障由厚厚的黏液层、肠上皮细胞层、间质细胞、树突状细胞、淋巴细胞和巨噬细胞组成。正因如此,这些细胞类型被认为具有高度预测能力。此外,IBD中被认为与疾病相关的许多细胞类型(如T细胞、成纤维细胞、杯状细胞、肠上皮细胞等)也在PINNACLE模型中表现突出。CD4+ T细胞被认为是IBD的主要驱动细胞,它们在成人和儿童IBD患者的外周血和肠黏膜中都有发现。由于CD4+ T细胞的异质性,治疗效果可能取决于患者特定亚型的CD4+ T细胞。
图5:RA和IBD治疗领域的上下文靶点预测结果。
PINNACLE还揭示了蛋白质表示性能不佳的细胞类型上下文,例如在RA和IBD疾病模型中,蛋白质表示在十二指肠腺体细胞、肝窦内皮细胞、子宫肌层细胞和肝细胞等非免疫细胞中的表现较差,这些细胞类型不参与疾病的关键过程。研究团队的结果强调了了解治疗靶点在特定细胞类型中的表达和作用的重要性,进一步验证了上下文化蛋白质表示对靶点预测的提升效果。
PINNACLE是一种灵活的几何深度学习方法,可用于在用户定义的生物学上下文中进行上下文化预测。通过将单细胞转录组图谱与蛋白质互作网络、细胞类型互作以及组织层次结构相结合,研究团队构建了专门针对生物学上下文的潜在蛋白质表示。PINNACLE的蛋白质表示涵盖了156种细胞类型和62种不同层次的组织,捕捉了细胞和组织的组织架构。除了多模态数据集成之外,预训练的PINNACLE模型还能为下游预测任务生成蛋白质表示,特别是在涉及细胞类型依赖性和细胞类型特异性机制的任务中具有优势。
研究的一个局限是使用的人类蛋白质互作组并不是细胞类型特异性测量的,目前尚无系统性测量跨细胞类型的蛋白质互作。研究团队通过将单细胞测量数据覆盖在蛋白质互作网络上,利用之前验证过的技术重建单细胞分辨率的细胞类型特异性互作组,并进行敏感性网络分析以确认训练PINNACLE模型所用网络的有效性。尽管如此,这些网络可能包含假阳性(即蛋白质在参考互作网络中互作,但在特定细胞类型中并不互作)和假阴性(即在某些尚未测量的特定细胞类型上下文中才发生的互作)。PINNACLE目前无法对可能在细胞类型中发挥作用但不受细胞类型特异性影响的蛋白质进行建模。然而,PINNACLE相较于上下文无关模型的显著性能提升表明了上下文化预测的重要性,并指示了未来增强现有蛋白质互作网络分析的方向。
PINNACLE可通过多种方式进行扩展。研究团队使用了Tabula Sapiens,一个包含来自24种不同组织和器官的近50万细胞的分子参考图谱。然而,由于与特定疾病相关的组织和细胞类型可能未在健康人类受试者的图谱中完全体现,研究团队预测其预测能力可能受限。例如,Tabula Sapiens中未包含与RA疾病进展相关的滑膜组织,但这些组织可在RA滑膜图谱和慢性炎症疾病患者的基质细胞中找到。为提高PINNACLE模型的预测能力,可在疾病特异性或干预特异性网络上训练这些模型。此外,PINNACLE的表示可以补充由其他数据模态生成的蛋白质表示,包括蛋白质3D结构表面。
除了优先考虑候选治疗靶点外,PINNACLE的表示还可用于细化识别具有特定特征的细胞群体,例如耐药性、不良药物事件或疾病进展的生物标志物。未来,随着实验技术的进步,将越来越有可能生成跨细胞类型上下文的自适应蛋白质表示,并利用上下文化表示预测细胞类型特异性的蛋白质功能,并在细胞类型水平提名治疗靶点。像PINNACLE这样的方法通过生成上下文化的蛋白质表示,帮助预测细胞类型特异性的蛋白质功能和识别细胞层面的治疗靶点,能够实现这一潜力。
这篇文章启发我们,可以进一步探索和优化空间多组学数据整合的方法,通过引入更为先进的深度学习技术和优化算法来提升模型的性能和准确性。具体而言,结合变分自编码器(VAE)和生成对抗网络(GAN)的方法,能够在保留数据原始分布特征的同时生成高质量的虚拟数据样本,以增强模型的训练效果。此外,将注意力机制与自监督学习方法相结合,可以使模型在缺乏标注数据的情况下,自主学习数据中的潜在模式,提高模型的泛化能力和鲁棒性。通过这些改进方法,模型能够更好地处理空间多组学数据中的复杂异质性,进一步提升解析组织样本中细胞类型和解剖结构的精确度。这是因为变分自编码器能够有效捕捉数据的潜在分布,并通过生成对抗网络生成逼真的数据样本,增强模型的训练数据集;而自监督学习则能够在缺乏大规模标注数据的情况下,通过数据增强和特征提取提升模型的学习能力和泛化性能。这些方法的结合将有助于开发出更强大的空间多组学数据整合工具,为生物医学研究和精准医疗提供更加可靠和深入的分析手段。
引文:Li, M.M., Huang, Y., Sumathipala, M. et al. Contextual AI models for single-cell protein biology. Nat Methods (2024)原文链接:https://doi.org/10.1038/s41592-024-02341-3代码链接:PINNACLE项目网站:https://zitniklab. hms.harvard.edu/projects/PINNACLE;PINNACLE代码链接:https://github.com/mims-harvard/PINNACLE。数据链接:本文使用的所有数据,包括细胞类型特异性蛋白质相互作用网络、细胞类型和组织关系的元图、PINNACLE的上下文表示、RA和IBD疾病的治疗靶点以及分析的最终结果和中间结果,均通过项目网站共享(https://zitniklab.hms. harvard.edu/projects/PINNACLE);数据集通过共享获得:https://doi.org/10.6084/m9.figshare.22708126。
感兴趣的读者,可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。