深度学习如何助力抗体设计🤔
一点关于抗体、抗体工程以及深度学习如何应用在这方面的思考。
目录 1. 背景介绍 2. 传统抗体设计
3.AI与抗体设计 3.4 David Baker|纳米抗体的从头设计 3.5 其他AI算法(GeoAB/IgLM/AbLang/dyMEAN等) 4. 结论 1. 背景介绍 在基于机器学习(ML)的蛋白质设计方法中,抗体工程的进步尤为显著。本文不是一个传统意义上的机器学习帖子。不会深入到抗体机器学习方法的具体细节,而是建立必要的背景知识以理解这些方法,并介绍一些抗体机器学习的论文。
1.1 什么是抗体? 浆细胞是BCR的生产工厂,此处浆细胞生产的BCR蛋白被称之为抗体 。 要认识抗体,让我们从B细胞开始。B细胞属于白细胞家族。每个B细胞在一种能力上都是独特的:它们能结合一种物质,即抗原。抗原可以非常多样化,从昆虫的毒液到流感病毒的片段再到贝类蛋白质 。现在让我们假设抗原是“坏的”。
实际上并非如此,因为“抗原”是一个主观类别,人体含有数万亿的“自身抗原”。但可以简单将抗原视为不应该存在于你体内的坏东西。
B细胞是如何结合这些抗原的呢?
大多数B细胞实际上彼此相同,除了它们结合其独特抗原的部分。它们独特并负责结合的部分叫做B细胞受体,即BCR 。
当BCR成功结合到它自己的独特抗原时,B细胞将进入“激活 ”状态。一个激活的B细胞将分化成2种可能的新细胞状态:记忆B细胞和浆细胞 。
如果一个激活的B细胞走后一条路,或者变成浆细胞,它就成为了BCR的大规模生产工厂,将它们以数十亿计地泵入你的血液。但此时,分泌的BCR不再是BCR,而是抗体。抗体只是BCR分泌形式,由能够结合抗原的BCR部分组成。除了产生抗体外,激活的B细胞也开始以极高的速率复制,帮助提高抗体的产量。简而言之,浆细胞生成的BCR蛋白即为抗体 。
但让我们回到产生抗体的浆细胞,为什么它要产生这么多结合激活它的抗原的抗体呢?我们希望以某种方式干扰抗原的活动。抗体可以做到这一点,不管抗原究竟是什么。如果抗原是细菌或病毒,结合在其表面的抗体可以阻止它成功进入细胞。如果抗原是某种毒素,抗体可以阻止它与周围组织发生作用。不管抗原类型如何,抗体还充当警报,通知除激活的浆细胞之外的 其他细胞抗原是什么以及与之结合的是什么。
1.2 认识抗体结构 抗体Y上面的'\'和 '/'相同,4个domain组成的部分称为Fab区 抗体最顶端和抗原结合的一条重链H、轻链L,2个domain组成Fv区 H/L链中与抗原结合的关键可变互补区,称之为CDR ,H/L链各有3个CDR区域,其中CDRH3最重要 抗体下面的躯干,称为Fc区 ,ADC药物常是与Fc区域链接的 图1|抗体结构 为了理解抗体结构,基本上需要一个可视化可以将BCR视为看起来与抗体大致相同,只是抗体底部有一些额外的蛋白质,使其能够将其当前状态的信息传递给B细胞的其余部分。作为一种术语,你可能会看到“免疫球蛋白”,或Ig/IgG,用来指代抗体或BCR ,它们实际上意思相同。你可能还会看到“单克隆抗体”,这指的是从单一克隆细胞产生的普通抗体 ,这样你可以拥有许多(通常是数十亿)相同的抗体。
图2|抗体结构 抗体总是以对称的“Y”形出现 。顶部的两个分段('' 和 '/') 彼此相同,也确实是我们将要讨论的唯一事情。它们定义了抗体结合的确切抗原,因此这个区域被称为“Fab区 ”,或抗原结合片段区域。我们可以在所有意图和目的上忽略Y形的
躯干或Fc区域 ,即晶体化片段区域。它非常重要,但对抗体工程来说不是很重要,因为它基本上总是保持不变,主要是允许抗体与免疫系统的其他部分进行交互。
在每个'\' 和 '/' 段的顶端是“可变”区域 。这就是通常被修改以引起抗原结合变化的部分。需要注意的是,并非这个区域的全部都是可变的,只有特定的部分是(我们将在后面讨论)。在'\' 和 '/' 的基部是“恒定”区域。在抗体文献中你经常会看到一个词是“同种型”。恒定区域编码了抗体的同种型,它改变了它与其他细胞(包括免疫系统的其余部分)的交互方式。已知有5种同种型:IgG、IgM、IgA、IgD和IgE。由于可变区域单独定义了抗体能够与之交互的抗原,我们将在本文中基本上完全忽略同种型。
最后,抗体通常由四个不同的蛋白质组成,即氨基酸链。你可能会看着上面的图片并认为“不是有更多吗?也许是6个?或者12个?”。实际上只有四个,Y形的每一侧的重链继续向下。也就是说,Fc区域由从Fab区域延伸下来的两个重链的剩余部分组成并结合在一起。
让我们先预防性地回答关于整个过程的一些疑问:
为什么它是Y形的? 并不完全清楚,但有一些猜测。首先,一个抗体上拥有多个结合区域可以增加对任何给定抗原的结合强度,或者可能允许它结合到多个相同的抗原。其次,Fab区域和Fc区域的分离很重要;它们参与结合两种完全不同的实体(抗原与免疫系统细胞)。最后,抗体头部的灵活性很重要,以便它能够以多种角度结合到抗原。"Y"形可能只是进化过程中达到满足所有这些目标的最佳形态。
所有生物的抗体看起来都相似吗? 是的 ,大部分是相似的。当然,生物学中总是有例外:存在所谓的“重链抗体”,或HCAbs,它们在骆驼和鲨鱼中发现,具有通常的Y形结构但没有轻链。
我们可以进一步修改抗体结构吗? 可以!人类已经创造了“双特异性抗体” ,它们有两个不同的Fab区域,允许结合两种完全不同的抗原。我们还可以完全剥离Fv区域和Y形结构,创建“scFv”抗体,它们只有单一的可变重链+轻链。人类还制作了只有单一重链可变区的抗体,称为单域抗体,或“纳米抗体” ,或VhH。然而,大部分使用AI进行的抗体重组并不涉及抗体的大结构变化,只是可变区的重新设计,所以我们不会在这方面讨论太多……除了最后一部分。
1.3 抗原抗体的结合 将注意力集中在实际结合抗原的抗体区域。如前所述,这些是Fab区域的一部分,这个区域的特定片段称为“互补决定区”,或CDR区 。它也可能被称为“高变区”,但这种术语似乎较少使用。抗体上的CDR区域在很大程度上决定了与抗原的结合。
上图显示了抗体的两个Fab区域。重链的CDR以红色显示,记为CDR1、CDR2和CDR3。轻链也会有三个CDR。这些通常用H或L表示。因此,每个Fab片段总共有6个独特的CDR:HCDR1、HCDR2、HCDR3、LCDR1、LCDR2、LCDR3。你也可能看到略有不同的表示法,我也见过CDR-H1或H-CDR1。这将为另一个Fab片段重复,所以每个抗体总共有12个CDR。所有这些区域的总和构成了抗体的paratopes 。
最后,我们如何称呼可变区的非CDR部分?也就是说,与CDR连接但不结合的区域,这是框架区域,通常称为“FWR”区域。这些区域表现出一定的变异性,但远小于CDR区域,并且在抗体工程问题中通常不进行突变修改。
这里有一个测试读者的问题:有多少种可能的paratopes? 假设每个CDR由8-15个氨基酸组成,总共有6个CDR区域,人体总共有20个氨基酸,这意味着大约10的11次方,到10的20次方,这么多种paratopes。在更实际的水平上,所有paratopes的理论上限更多是10的13次方,有几个实际限制阻止我们达到真正的上限,不深入讨论。
这是另一张图片,放大显示的一个paratopes。
关于抗原的快速说明:虽然抗原可以是任何东西,但仍有一些术语用于描述它们。表位 是指抗体能够结合的抗原区域。如你所料,定义所有可能表位的空间是非常复杂的,因为它取决于用于给定抗原的抗体、抗体和抗原所处的环境,甚至还得考虑抗原的灵活性(见下图)。
可能对整个过程有一个立即的问题:“结合是什么意思,怎么度量?”。抗体和抗原之间的结合通常通过平衡解离常数 来衡量,通常简称为Kd值 。这表示在平衡状态下,抗原结合位点的一半被抗体占据时的抗体浓度。较低的Kd值表示更高的亲和力,意味着抗体更紧密地与其抗原结合。假设我们有一种抗体,它与其目标抗原的结合Kd值为1 nM(纳摩尔)。这意味着在平衡状态下,当抗体浓度为1 nM时,抗体的一半结合位点将被抗原占据。如果Kd值是5 nM,那意味着需要5倍的抗体量才能使其一半的结合位点被占据。纳摩尔范围内的Kd值的抗体(例如,1-10 nM)通常被认为具有高亲和力,而微摩尔范围内的Kd值的抗体(例如,1-10 µM)具有较低的亲和力。
这就是我们需要的所有背景知识。有由6个可变CDR 组成的抗体paratopes ,3个重链和3个轻链,可以修改这些区域。每个CDR有8-15个氨基酸 。所有这些都是为了结合某些抗原的表位 ,其强度可以通过Kd值 来衡量。
1.4 为什么要设计抗体? 能够定制创建针对特定抗原的抗体,在某种意义上接管了自身免疫系统的工作。而不是依赖于身体的自然免疫反应。这种免疫反应在某些疾病中可能是不理想的,甚至根本不存在,工程抗体提供了一种直接干预和引导免疫系统攻击抗原的方法。设计抗体的工作原理与身体的天然抗体相同,选择性地结合它们的目标抗原,并触发各种免疫反应,如中和、吞噬或补体系统激活。
一些设计抗体在临床背景下具有独特价值的例子是什么? 最明显的一个是在传染病的情况下。公众在SARS-CoV-2大流行的高峰期更加意识到单克隆抗体的效用,特别是在特朗普臭名昭著地使用再生元抗体。这种药是两种设计抗体的组合,卡西瑞韦单抗和伊姆德韦单抗。这两种都是设计用来直接结合SARS-CoV-2的,每一种都针对它的稍微不同的区域(结合同一抗原+不同表位的抗体组合被称为防止突变逃逸)。
但是你为什么要需要这些定制的,工程化的抗体,而不是依赖于你的免疫系统经历:抗原 → B细胞识别 → 浆细胞产生抗体的过程呢?
这里有一些原因。
时间 :自然产生抗体反应需要时间,因为免疫系统需要识别病原体,激活B细胞,并产生特定的抗体。在严重的情况下,这种延迟可能导致严重的并发症甚至死亡。另一方面,工程抗体可以立即给予,提供针对病原体的快速保护。
亲和力 :自然免疫反应可能不总是产生对病原体具有高亲和力或结合强度的抗体,或Kd。虽然我详细讨论了你的身体有BCR的(和抗体)几乎所有已知的抗原,但不能保证这些自然抗体可以紧密地结合到抗原,只是它可以结合!像卡西瑞韦单抗和伊姆德韦单抗这样的工程抗体被设计为与抗原具有极高的结合亲和力,确保抗体可以更有效地完成其工作。
易感性 :一些患者,如老年人或免疫功能低下的个体,可能根本无法产生有效的适应性免疫反应。在这些情况下,工程抗体可以在很大程度上取代他们的适应性免疫系统将扮演的角色。
传染病是抗体治疗应用的更明显领域之一。但常见的抗体治疗也扩展到另外两类:癌症免疫疗法和自身免疫疾病。
在癌症 的情况下,抗体开发与传染病框架非常相似,只是目标不是病毒,而是某些类型的癌症高度表达的特定细胞受体。这里一个例子是利妥昔单抗,它针对高度表达在B细胞淋巴瘤表面的CD20抗原 。由于适应性免疫系统经常完全无法识别癌细胞的特征,工程抗体是治疗的重要途径;当然,这完全失败于癌细胞突变太快,以至于没有一致的可识别细胞受体的显示。一个特别有趣的方向是“抗体-药物偶联物 ”,这是设计用来结合癌细胞特异性受体的抗体,但也与化疗化合物化学链接;允许我们只向癌细胞传递化疗,同时保护健康细胞。
在自身免疫疾病 的情况下使用抗体更有趣;与其防御像内部突变或病毒这样的威胁,重点是以一种超特定的方式来减弱身体的自身免疫系统。这里一个例子是工程抗体阿达木单抗(Humira),它被创造出来以缓解类风湿性关节炎(RA)的症状。这里的逻辑是RA推动肿瘤坏死因子-α(TNF-α)的上调,这是一种促炎细胞因子,会导致关节炎症,阿达木单抗被设计为结合TNF-α。通过结合细胞因子并阻止其对其他细胞的作用,抗体治疗大大减少了RA的主要症状。没有工程抗体,RA患者只有一个其他即时修复方法:广泛的免疫系统抑制剂,这显然是不可取的。
上面展示了抗体治疗的光明面,但鉴于传染病、癌症和自身免疫疾病 仍然是当今世界的问题,显然它不是万灵药。虽然我们可以在这里讨论很多问题 ,但有一个特别突出的问题与抗体工程相关:多反应性 (见下图)。存在于人体中的自然抗体经历了一个极其复杂的过程,称为中央耐受 ,它剔除了任何可能对位于我们细胞表面、分泌蛋白等的抗原产生反应的抗体。原因很简单:你不希望你的免疫系统对你自己的一部分(也就是自身免疫!)产生反应。当我们设计抗体时,这些抗体显然没有经历过中央耐受过程的,可能会发现它们不仅结合到我们想要的抗原,还结合到人体中许多其他非常重要的蛋白质!在这种情况下,将设计抗体标记为多反应性的,并(希望)搁置它,因为将其给予患者可能会导致几乎立即的(可能致命的)自身免疫反应。
抗体的多反应性
1.5 其他背景知识 抗体相关的知识很多,前文还有诸多遗漏,篇幅有限小编能力有限❤️。所以在此列举一些优秀的文章,涉及抗体相关的背景知识,方便读者拓展阅读。
2. 传统抗体设计 现在我们了解了抗体是什么,抗体设计为什么重要?抗体有什么样的临床背景,以及改造抗体实际上涉及什么(修改抗体的CDR区以更好地结合抗原表位 ),下面开始讨论如何实际的进行抗体设计/改造。先介绍抗体设计传统的做法,它的缺点,然后再讨论深度学习如何应用到抗体设计。传统抗体工程主要分为“理性设计”方法和“定向进化”。
2.1 理性设计(Rational design) 在理性设计中,研究人员利用他们对抗体结构和期望抗原结合的知识,来对抗原表位进行有针对性的改变。这里的方法极为多样化。一种特别常见的方法依赖于蛋白肽的晶体结构,用于生成要嫁接到CDR上的肽段(PNAS 112.32 (2015): 9902-9907.)。此论文核心想法是,如果蛋白的某个片段(比如,7个氨基酸的连续片段)经常在抗原的期望结合位附近被发现(使用晶体蛋白数据库),只需将这些相同的7个氨基酸放入想要抗体的CDR中,就能获得类似的结合效果 ,见下图!具体来说,在这篇论文中,作者发现多个相互作用的片段也可以联系在一起,从而可以通过观察3个氨基酸x表位和4个氨基酸x表位的出现,使得你得以得到一个7个氨基酸的插入。令人惊讶的是,这种“挖掘相互作用”的方法经常奏效;将蛋白-蛋白相互作用浓缩到几个特定的氨基酸组中,绝对更多的是一门艺术而不是科学 ,但经验丰富的蛋白设计师能够识别这种方法奏效的情况。在理性设计领域中还有许多其他方法,但它们都属于“认识进化已经产生的东西并复制它”的范畴,这里不再拓展。
当然,这通常是一个需要多年经验才能有效完成的费力过程,而且错误率很高,且产量极低。
在抗体设计过程中使用晶体结构。 理性设计抗体通常也与分子动力学(MD)模拟相结合 。这些模拟让研究人员了解他们设计的抗体如何与抗原表位相互作用,如何对温度/PH值变化做出反应,以及在模拟抗体与周围世界相互作用的基础物理过程中,它的结构稳定性如何变化。这里有一篇论文的例子(Scientific Reports 13.1 (2023): 16281.),作者分析了设计用于结合人类A33蛋白的抗体Fab区域的MD模拟结果,发现根据模拟结果,该抗体在较低PH值下是不稳定的。
然而,目前还不清楚这些模拟实际上有多准确,以及它们在抗体开发过程中提供了多少价值。从实际角度来看,似乎只是确认湿实验的结果,很少能够单独提供独特信息。与一般的理性设计一样,分子动力学模拟也非常缓慢,蛋白质片段的纳秒通常需要数小时甚至数天的计算时间,而为模拟设置“正确”的参数在很大程度上是一门由从业者多年磨练的艺术。
抗体是通过各种起始条件(如pH和不同的起始晶体状态)进行模拟,它们的灵活性(Rg)在100纳秒内被记录下来。 除了前文的例子之外,24年5月的一篇Nature文章编者觉得也算是理性设计,感兴趣的读者可拓展阅读:结合MD/FEP/FoldX等工具改进新冠抗体 。
2.2 定向进化(Directed evolution) 定向进化(DE)在效率上有相当大的进步。在定向进化中,研究人员从已经与目标抗原结合的“母体”抗体开始,但也许并不具有较强的亲和力或特异性 。然后,他们通过随机突变 编码抗体的基因,特别关注构成抗原结合部位的CDR区域,创建抗体变体库。这些变体库可能包含数十亿种不同的抗体序列,然后在噬菌体、酵母或哺乳动物细胞中表达,并通过表面等离子共振或噬菌体展示等技术筛选与目标抗原结合的抗体。优秀的抗体被选中,然后这个过程被重复,每一轮筛选和选择都会产生具有越来越优化特性的抗体。
定向进化的缺点 比理性设计案例更微妙,包括以下几点:
偏向高亲和力结合物 。定向进化方法倾向于选择与目标抗原具有最高亲和力的抗体。虽然高亲和力通常是可取的,但对于某些应用来说并不总是最佳的 。例如,在某些情况下,亲和力适中的抗体可能具有更好的组织穿透性或更快的清除速率,这可能被认为比纯粹的结合力更有价值。
对表位特异性缺乏控制 ,即抗体可能没结合在抗原的目标表位。随机突变和仅基于结合亲和力选择,可能并不总是导致与目标抗原上所需表位结合的抗体。当旨在开发针对抗原特定构象或翻译后修饰的抗体时,这可能尤其成为问题。
依赖于起始抗体 。定向进化的成功很大程度上取决于起始抗体的质量。如果最初的抗体具有较差的特异性或结合到一个无关的表位,那么生成的优化抗体可能不具有所需的特性。
序列多样性有限 。尽管定向进化可以产生大量的抗体变体库,但序列多样性仍受到起始抗体序列和采用的突变方法的限制。这可能限制对可能具有更好特性的新型抗体序列的探索。
时间和资源消耗大 。定向进化需要多轮库生成、筛选和选择,这可能耗时且消耗资源。每一轮可能需要数周才能完成,整个过程可能需要几个月到一年的时间来开发优化抗体。
有些人可能认为这些是次要问题,而在很多方面,它们确实严重。在创造了数十亿种抗体的情况下,经过多次优化轮次,至少有一种常常符合最低临床标准。但是,定向进化所需的成本仍可能很大,尤其是随着轮次的增加,周转时间可能会成为需要立即解决的流行病的问题。
深度学习是否能完全处理抗体设计问题,并允许我们在不到一个小时内设计出抗体,无需任何实验后续工作,以任何所需的亲和力值,具有无限多样性,并且在特定表位上?嗯...还不行,但我们正在逐步实现这一目标。
3. 深度学习与抗体设计 利用AI对抗体进行设计文献有很多,让人眼花缭乱,也读不过来。编者喜欢有实验验证的工作或论文 ,下文会选取几篇优秀的有实验验证的论文进行介绍。纯算法的论文仅简单列在3.5小节 。
现如今,许多深度学习算法应用于抗体工程问题。本文首先解释该领域中使用的主要数据集,以及它们包含和对从业者提供的价值。然后,将介绍抗体与深度学习领域中的几类广为人知的模型。每个部分都旨在加深我们对该问题的理解,而不是完全解释每种方法的基础!这个领域发展迅速,而这篇文章在几个月内肯定会过时,但通过阅读这些论文,我们建立的直觉将继续有用。
3.1 数据集 这里只有两个主要数据集OAS 和SAbDab 。
OAS (Observed Antibody Space) https://opig.stats.ox.ac.uk/webapps/oas/documentation/
OAS 是从下一代测序实验中收集的全面抗体数据。需要注意的是,测序仅限于Fab区域,主要位于重链可变区域(VHC)和轻链可变区域(VLC)。对于数据集的一个显著特点,在于一些通用信息被捕获,允许分配同种型。该数据的主要价值来自可变区域的序列,这有助于描述所有“可能”抗体序列的确切空间,特别是在CDR区域中,这有助于研究人员评估生成的抗体与天然抗体之间的多样性。数据集还包含来自非传统抗体(如纳米抗体)的数据,但占少数。
该数据集分为两部分:不配对的序列和配对的序列。不配对的序列的VHC和VLC序列是分开的,无法相互关联。这是测序技术限制的不幸后果;捕捉相互链接的蛋白质序列(正如在抗体中所发生的那样)在大规模高通量情况下是具有挑战性的!测序技术的进步意味着我们这些天也可以测序配对的序列,从同一抗体中得到VHC和VLC序列相互关联,但规模要小得多。而 OAS有30亿未配对的VHC/VLC序列,只有12万配对的VHC/VLC序列 。
关于该数据集的一个不足之处,以及许多类似数据集的不足之处,是它源于“天然”的B细胞BCR,而不是原始抗体
!前文已经介绍了BCR,但什么是天然B细胞?我们也讨论了B细胞的活化,即当B细胞遇到与其唯一BCR结合的抗原并转化成“激活”的B细胞时,它就开始产生数十亿的抗体并开始复制。还没有提到的是,该复制过程在CDR区域特意容易出错,在该区域,出错的可能性通常比正常的B细胞分裂高一百万倍。这意味着“激活”B细胞的“子代”产生的抗体异常多样。更重要的是,这些子细胞通常对其应该结合的抗原具有更高的结合亲和力,胜过其“母亲”B细胞。不幸的是,激活的B细胞在您的身体中占少数,这使得通过测序方法对它们进行抽样具有挑战性。这导致了一个抽样问题,OAS主要由所谓的“生殖细胞株” B细胞组成,它们在BCR中预期的多样性和结合亲和力上有一个上限,因为生殖细胞株通常对给定抗原具有低亲和力。在大规模LLM时代,这种数据集偏见可能会导致潜在问题,此问题有一篇论文报道(AbLang2, https://doi.org/10.1101/2024.02.02.578678)。抗体 AI 论文也经常提到这个问题,但目前并不是一个很大的问题。
SAbDab https://opig.stats.ox.ac.uk/webapps/sabdab-sabpred/sabdab
SAbDab抗体结构数据库,从PDB中整理了经实验证实的抗体结构。与OAS一样,这里也包括更多外形奇特的抗体,如纳米抗体,但这只是少数。以下是一些关于数据集大小的统计数据,它比仅包含序列的数据集要小得多。该数据集主要用于依赖于结构信息的模型,例如抗体-抗原复合物。
SAbDab数据库的总览 3.2 Peter Kim|语言模型与抗体设计 使用蛋白语言模型对蛋白进行改造或突变设计,我会简单介绍下面的两篇Peter Kim团队的两篇文章。
Nature Biotech|pLM进化抗体 https://doi.org/10.1038/s41587-023-01763-2 第一篇论文基本想法是利用已经通过优化过程的FDA批准的抗体,并通过LLM推荐的突变体来重新优化它们。作者这样做的方式是计算每个VHC和VLC的每个单氨基酸替换的对数似然率(log-likelihood)。这个log-likelihood 打分怎么理解呢,比如将VHC上的甘氨酸替换为半胱氨酸,然后询问某一个pLM,突变体本是否“更有可能存在于自然界”。这是pLM非常擅长回答的问题,因为它们已经在所有曾经进化过的蛋白质上进行了训练。该论文总共使用了六个pLM(ESM-1b和ESM-1v的五个模型),并取得了所有6个模型的共识,即6个模型的打分都一致认为该突变更可能存在于自然界。他们进行了两轮优化,第一轮只突变一个残基,第二轮在前一轮的基础上再突变另一个残基。重要的是,没有对这些网络进行额外的训练,作者使用的预训练权重。本文的策略总结一下如下:
使用pLM的log-likelihood对突变打分 两轮迭代,第一轮一个位点突变,第二轮在前一轮的基础上再突变另一个残基
文章的两轮实验测试Kd 可见,本文的方法如此简单纯粹,但实验上却取得了非凡的结果,一些结果令人印象深刻:
作者从已经在临床使用中的七种抗体开始,因此这些抗体已经经过了为了它们的结合亲和力和物理特性进行优化的阶段。即使是这些抗体,pLM建议的突变,也具有更好的热稳定性,较低的免疫原性,而且在每一种情况下都具有更好的中和效力 。这是在每种情况下为每种情况得分少于20种变体 ,以及经过两轮传统实验室进化之后的情况。对于这种情况来说,这个工作量比理性设计、定向进化的工作量要少得多。
这说明,在生命科学的深度学习中,一个相当普遍的经验是,模型在优化已经具有期望特性的事物方面非常擅长,但在首次(de novo)找到这些事物方面却非常糟糕 。类似的现象也在其他领域出现,如Binder生成,小分子生成等。
这项研究的最后一个有趣部分是,绝大多数有益的突变不在CDR区域 !尽管一直在讨论CDR的重要性,但利用CDR区域之外的突变可能会有相当大的价值。
Science|ESM-IF1进化抗体 接下来我们来看Peter Kim团队最新发表在Science的后续工作,同样是对抗体进行突变进化。这篇Science论文处理方式基本和Nature Biotech基本上是一模一样,只是将蛋白语言模型pLM换成了蕴含结构信息的语言模型(structure-informed language model),实质上是ESM-IF1 .
DOI: 10.1126/science.adk8946 这篇Science文章有几个重要的结论或经验,值得强调。
第一个结论,是蛋白的多模态(序列+结构)输入,i.e., ESM-IF1,能够更好的预测蛋白的fitness变化 ,作者并做了实验验证。见下图,在5/10/20点位突变替换的场景下,蓝色的ESM-IF1,要比仅用序列进行预训练的模型表现更好。这个结论也和最新ProteinGym的基准测试的结果一致,融合结构的语言模型SaProt表现很好。
第二个有趣点是,ESM-IF1模型采用多条链作为输入,能够更准确的预测抗原抗体突变亲和力的变化。见下图 ,Ag-Ab作为模型的输入,抗原抗体突变亲和力变化预测上PR最高。
第三个点,ESM-IF1模型的log-likelihood与突变亲和力表现出强相关性(下图 ),能自然地想到用这类模型进行抗体突变体的筛选或设计,得到高Fitness的变体。
但编者也有些担忧之处:
担忧1: 模型打分是否在所有抗原抗体突变上都表现出正相关?最简单做法是在AB-Bind数据集的20几个靶点上简单验证一下。当然也可以说通常具有相关性,ProteinGym的结果显示,ESM-IF1确实在突变的Binding任务上表现很好。 担忧2: 不同靶点log-likelihood打分是否具有可比性?编者觉得不可比,更严谨的做法是在SAbDab含300+体系不同抗原抗体绝对亲和力的数据集上,简单验证一下相关性就知道答案。 除了上面指出的点之外,作者也是进行两轮迭代,选取单位点突变,如下图:
3.3 AbSci|抗体CDR的从头设计 AbSciBio公司的这篇CDR从头设计的论文,23年就上传Arxiv但好像一致未见刊,此论文针对HER2做了大量的实验,实验数据也开源到了Github,https://github.com/AbSciBio/unlocking-de-novo-antibody-design
https://doi.org/10.1101/2023.01.08.523187 只能够提供一种抗原结构,并让模型设计一种专门定制、能够与该抗原高亲和力和特异性结合的抗体。2023年初的AbSci的论文探讨了这个确切的问题,他们设计了完全能够结合到特定抗原的抗体,都是通过使用一个从未见过结合到该特定抗原的抗体的模型!这就是“de-novo ”。有许多抗原有初始结合的抗体,所以一个不需要这一点的模型具有非常强大的能力。
作者重新设计了一个著名抗体(曲妥珠单抗)结合到一个叫做HER2抗原蛋白的HCDR3区域。他们仅给模型输入HER2氨基酸序列,然后让模型填充曲妥珠单抗的HCDR3区域。那么这个“模型”到底是什么呢?遗憾的是,论文中根本没有讨论这个问题,也没讲算法技术的细节 ,可能是出于商业原因,因为一家抗体设计公司发布了这篇论文。
考虑到HCDR3区域之外的结合也被认为是重要的,并且曲妥珠单抗在HCDR3之外也有突变,可能想象AbSci这里的建模策略,可能在曲妥珠单抗非HCDR3区域已知的良好序列空间上实现“坐享其成”。此外,如果是从一个经过验证的抗体出发,这到底算不算是“de-novo”呢?还值得商榷!!!
作者的模型,生成了40万种可能的抗体,并以高通量实验方式测试它们与HER2抗原的结合情况。其中有4千个显示出结合性,其中有421个被选中进行后续高精度的实验验证,通过一些分子动力学进行预过滤,作者在SI补充材料中解释了这些。其中71个具有小于10nM的Kd值(记住,<10nM Kd是“高”亲和力的范围),其中三个抗体的Kd值比曲妥珠单抗还要高。作者声称在所有生成的抗体,具有很高的序列多样性。所以简单总结他们的流程为:
但是当该模型被扩展到重新设计所有HCDR的3个区域时,情况就没那么乐观了……当然,尽管这些完全重新设计的抗体的Kd值并不糟糕,但与已已有的药物相比,它们与之仍有很大差距。实现全面抗体设计的梦想还远远未实现,即使是重新设计已建立抗体的HCDR区域(而不是HCDR,甚至非CDR区域)仍然具有相当大的挑战性!
所以划个重点,此论文结果说明,仅设计抗体HCDR3区域很多时候就能获取高亲和力 ;同时设计所有CDR区域,甚至整个抗体蛋白,只会增加难度。
这篇论文的公司发布了一篇后续工作,使用一种称为‘IgDesign’的方法,该方法生成根据抗原而定的全新抗体。
AbSci的IgDesign论文,文中对8个抗原进行设计,并进行了实验验证
这里不会过多讨论这篇论文,篇幅有限,实际上编者想偷懒。但我强烈建议读者自行阅读这篇论文!这篇论文的方法涉及重新设计HCDR1-3,以及对仅设计HCDR3进行了比较。实验结果表明,仅设计HCDR3就已经足够,见下图 。还关注了各种不同的抗原,尽管对于其他部分抗体仍然使用经验证的抗体抗原!该文章取得了一些有趣的结果:对于8个抗原中的5个(抗原1、2、6、7和8),IgDesign生成了与参考抗体相等或更高亲和力的结合物。对于抗原5,却表现的很难。
3.4 David Baker|纳米抗体从头设计 David Baker这篇论文已有很多公众号写了优秀的报道,编者仅简单扼要介绍下
https://doi.org/10.1101/2024.03.14.585103 贝克实验室当然是解决蛋白设计难题的传奇人物,他们对此有一套方法。该方法最接近我们完全设计抗体的梦想,只需提供抗原作为输入。他们使用重新训练的RFDiffusion模型作为主要方法来实现这一目标。
但是,他们设计的并不完全是抗体,而是‘纳米抗体’或VHH。在这篇文章中,设计完整抗体并不特别重要,因为这些抗体的更小、更紧凑版本基本上具有相同的功效,甚至可能还有一些优势。我们在此之前已经讨论过这种抗体形式,但作为提醒,纳米抗体只由抗体的一个VHC组成;所以,只有3个CDR,它们都是重链,没有FWR区域。
那么,结果如何?最好由他们用自己的话来陈述:
已经针对RSV第三位点和流感血凝素对9000个设计的VHH进行了酵母表面显示筛选,然后在大肠杆菌中表达出顶级物种。表面等离子共振(SPR)表明,对RSV第三位点和流感血凝素具有最高亲和力的VHH分别与其各自的目标结合,亲和力分别为1.4μM和78nM。
对SARS-CoV-2受体结合结构域(RBD)进行了9000个VHH设计的测试,在可溶性表达后,SPR确认与目标之间的亲和力为5.5μM。重要的是,结合是到预期表位,通过与结构确定的从头开始的结合蛋白(AHB2,PDB:7UHB)竞争来确认。95个VHH设计针对TcdB进行了测试。具有最高亲和力的VHH具有262nM的亲和力。
因此,虽然他们设计的纳米抗体,不能合理地被描述为对其抗原的‘强’结合体(Kd<10nM),但有些可以被描述为中等;也有一些纳米抗体在HA和TcdB方面达到了<1μM的Kd区域。RBD和TcdB的纳米抗体,也结合在了新的表位。
整体来说,结合能力结果中等。但将抗体设计技术应用到抗体的最小化形式上取得了巨大进展(这比通常情况下的抗体设计更有潜力),但这些工程纳米抗体的结合能力,与临床级抗体中期望的亲和力相比还是不足的。然而,这是最接近真正的从头设计。鉴于RFDiffusion-AA已经发布,如果将本文的RFdiffusion替换,这可能会显著提高准确性和成功率。
关于本论文一些更优质的公众号报道,推荐读者拓展阅读:
3.5 其他抗体设计AI算法 除了上面介绍的几篇论文之外,还有很多算法或论文对抗体进行设计,但大多通常无湿实验的验证。在抗体骨架生成场景,IgDiff生成整个骨架,LoopGen只生成CDR骨架。在序列设计层面,有的算法设计整个CDR的6个区域,有的只针对设计CDRH1/2/3区域,有的只设计CDRH3。常用的逆向折叠方法,也微调到了抗原抗体场景,如ESM-IF1微调后的AntiFold,ProteinMPNN微调后的AbMPNN。在优化设计的抗体指标方面,大多数生成算法只管设计序列的恢复率、可设计性等,但也有些算法结合亲和力预测进行设计,仅有少数几个算法考虑抗体可开发性多种性质进行设计。还有针对抗体的语言模型,IgLM/AbLang等。文章之多很难一时讲清楚,编者简单归纳一下列在下表:
模型名称 文章链接 开源链接 场景 备注 IgDesign https://doi.org/10.1101/2023.12.08.570889 N/A 序列设计HCDR1/2/3 有实验验证 Sculptor https://doi.org/10.1101/2022.12.22.521698 https://tinyurl.com/sculptormb 抗原Binder设计 有实验验证,Po-Ssu Huang AbLang2 https://doi.org/10.1101/2024.02.02.578678 https://github.com/oxpig/AbLang2 抗体语言模型 IgLM https://doi.org/10.1016/j.cels.2023.10.001 https://github.com/Graylab/IgLM 抗体语言模型 BALM https://doi.org/10.1016/j.patter.2024.100967 https://github.com/brineylab/BALM-paper 抗体语言模型 IgDiff https://arxiv.org/abs/2405.07622 https://zenodo.org/records/11184374 抗体骨架生成 Charlotte M. Deane PLAN https://doi.org/10.1101/2023.09.04.556278 抗体人源化 许锦波 AbDiffuser http://arxiv.org/abs/2308.05027 AntBO https://doi.org/10.1016/j.crmeth.2022.100374 https://github.com/huawei-noah/HEBO/tree/master/AntBO 逆向折叠
华为 VcAb https://doi.org/10.1101/2024.06.05.597540 https://github.com/Fraternalilab/VCAb 抗体工程网页工具 AbMPNN https://arxiv.org/abs/2310.19513 https://zenodo.org/record/8164693 逆向折叠 Charlotte M. Deane GeoAB http://biorxiv.org/lookup/doi/10.1101/2024.05.15.594274 https://github.com/BIRD-TAO/GeoAB CDR骨架生成 李子青 DIffAB http://biorxiv.org/lookup/doi/10.1101/2022.07.10.499510 https://github.com/luost26/diffab CDR结构/序列共设计 彭建 ATUE http://arxiv.org/abs/2301.12112 https://github.com/dqwang122/EATLM Benchmark dyMEAN http://arxiv.org/abs/2302.00203 全原子CDR设计 刘洋 DWJS https://arxiv.org/abs/2306.12360 https://github.com/prescient-design/walk-jump AntiFold https://arxiv.org/abs/2405.03370 https://opig.stats.ox.ac.uk/data/downloads/AntiFold 逆向折叠 Charlotte M. Deane AGN http://arxiv.org/abs/2402.05982 https://doi.org/10.1101/2023.11.22.568230 https://github.com/amelvim/antibody-diffusion-properties 可开发性优化设计 http://arxiv.org/abs/2401.05341 序列设计CDRH3 强化学习
👆上表肯定有遗漏或不全之处,欢迎读者在留言区推荐好的算法或模型。
4. 结论 免疫学很复杂,利用机器学习进行抗体工程仍处于起步阶段。最初撰写这篇文章时期望在我无法理解的论文中隐藏着一些真正的魔法子弹,但似乎情况并非完全如此。人们仍在努力弄清楚这一领域正在发生什么,而结果表明了这一点。有些机器学习辅助的抗体工程方面甚至还没有被讨论,比如多反应性,直到贝克实验室的论文在一个月前才提出,甚至还有表位靶向!我相信抗体发展还有更微妙的方面,我甚至不知道,对于理性抗体设计者至关重要,但甚至还没有被机器学习研究人员触及。
但是,在这个领域的一切事物都可能在一夜之间发生改变!
参考文献 Hie, B.L., Shanker, V.R., Xu, D. et al. Efficient evolution of human antibodies from general protein language models. Nat Biotechnol 42, 275–283 (2024). https://doi.org/10.1038/s41587-023-01763-2. Unsupervised evolution of protein and antibody complexes with a structure-informed language model Unlocking de novo antibody design with generative artificial intelligence Atomically accurate de novo design of single-domain antibodies Rational design of antibodies targeting specific epitopes within intrinsically disordered proteins. PNAS 112.32 (2015): 9902-9907. In vitro validated antibody design against multiple therapeutic antigens using generative inverse folding