Brief Bioinform｜深度学习在抗体设计中的应用

抗体是免疫系统中的重要蛋白质，能够在适应性免疫反应中识别外来分子（抗原）。由于其出色的结合特性和高度特异性，单克隆抗体（mAbs）已成为领先的生物治疗药物。与传统小分子药物相比，mAbs可以被设计成针对特定疾病相关分子，减少非目标效应。抗体治疗市场正在迅速增长，预计到2028年将超过4000亿美元，复合年增长率为14.1%。

尽管抗体治疗前景广阔，但传统的抗体开发方法既耗费人力又成本高昂，限制了抗体的广泛应用。为了克服这些限制，研究人员开始结合计算方法与实验技术，以提高抗体开发的效率和降低成本。深度学习（DL）作为一种强大的工具，在图像分析和自然语言处理等领域取得了显著成果，并逐渐应用于生物学领域，特别是在抗体的开发和优化中。

近日，Sara Joubbi等人在Briefings in Bioinformatics上发表的综述文章《Antibody design using deep learning: from sequence and structure design to affinity maturation》为我们揭示了深度学习如何助力抗体的设计与优化。本文将对该论文进行解读，探讨深度学习在抗体设计中的关键作用。

本文的综述旨在强调深度学习在蛋白质设计和优化中的重要进展，特别关注抗体的设计、折叠、抗体-抗原相互作用的对接以及亲和力成熟。

抗体相关数据库

本文归纳了多个公共数据库，它们为抗体设计和研究提供了宝贵的资源。数据库可以归纳为序列、结构数据库两种类型。这些数据库在抗体设计、结构预测、亲和力成熟和生物治疗开发等方面具有重要应用，它们为抗体研究提供了丰富的资源库，使得研究人员能够访问和利用大量的抗体序列和结构信息，促进了抗体工程和相关生物技术的发展，加速了新药和治疗方法的发现过程。这些数据库见下表。

AI重塑抗体设计

在抗体设计和蛋白质工程领域，深度学习（DL）技术的应用引入了新的途径，这些途径填补了结构和序列信息之间的差距。这些方法使用深度学习来生成和操作抗体的结构和序列方面，为定制抗体开发开辟了新的道路。大致分为三类用于抗体生成的深度学习模型：基于结构的模型、基于序列的模型，以及结合结构和序列的模型。

1 基于结构的AI设计模型

基于结构的深度学习模型专注于抗体的CDR可变区，特别是CDRH3。这些模型采用了两种不同的方法:

1、第一种方法，涉及生成3D坐标来设计CDR-H3的实际骨架。例如，Ig-VAE使用变分自编码器（VAE）来嵌入和重建新的抗体骨架结构。这种方法可以受到特定结构元素的约束。这个过程包括计算全原子骨架坐标的拉马钱德兰角和距离矩阵，通过编码器-解码器网络传递，并反向传播错误以细化生成的结构（上图A）。Ig-VAE还实现了旋转和平移不变性。

2、第二种方法，预测CDR区氨基酸替换带来的ΔG变化。Shan等人提供了预测ΔG变化的一个例子，作者研究了由氨基酸替换引起的结合亲和力变化。

基于抗体结构的设计模型对比见下表：

2 基于序列的AI设计模型

由于获取抗体结构可能具有挑战性，因此某些深度学习模型被设计，专门从它们的序列中捕获广泛的抗体特征，如上图B和下表所示。

为什么会有蛋白语言模型？

蛋白质氨基酸序列与人类语言存在相似之处，一个有含义的语句就类似于一条有功能的蛋白序列，这一发现促进了特定于蛋白质的NLP技术的发展。

Transformer模型因其捕捉序列长距离关系的能力而成为NLP的主要模型，蛋白语言模型主要也用此列模型。蛋白语言模型具体可分为掩码语言模型（MLM），和自回归语言模型（AR），感兴趣的读者可拓展阅读《语言模型设计蛋白》。

这些模型有什么区别，或性能谁更强？

ProtBERT：直接在蛋白质数据库（如Uniref100）上训练的模型。

ESM-1b和ESM-2：蛋白质语言模型（pLM），通过无监督学习在大量蛋白质序列上训练，能学会认识二级和三级结构信息。最近ESM3模型也已经开源，感兴趣的读者可拓展阅读《全新蛋白质大模型ESM3诞生》。

AntiBERTy和AntiBERTa：基于BERT的模型，专门在抗体序列上训练，可用于表位预测和分析。

AntiBERTa在表位预测方面表现优于ProtBERT，具有较高的马修相关系数（MCC）和接收者操作特征曲线下面积（ROC-AUC）。

NanoBERT：针对纳米抗体的变换器，能准确预测特定位置的氨基酸，提高了V区重建的准确性。

抗体领域特定的语言模型（如AbLang和IgLM）在填补抗体序列数据中缺失的残基方面显示出优势，提供了不依赖于抗体胚系先前知识的解决方案。

IgLM在区分人类和非人类抗体方面表现优于ProGen2-OAS和Progen2，尽管其参数数量较少。

除了文中归纳的模型，编者补充一个基于OAS训练，考虑抗体重链和轻链配对的语言模型BALM，感兴趣的读者可阅读《基于抗体配对数据改进的抗体语言模型》。

这些算法模型的比较和性能指标，而它们的优势、局限性和应用在论文表3中有详细列出。感兴趣的读者可仔细阅读原文。

3 结合序列/结构的AI模型

融合结构和序列信息是抗体设计中的一个前沿领域（见上图CD或下表）。通过整合这些互补的信息源，AI模型能够解读序列变化与结构适应之间的复杂关系，提供对抗体形式与功能之间复杂相互作用的洞察。例如：

RefineGNN是一个基于自回归（AR）的抗体生成模型，它迭代地细化序列和预测的全局结构。推断出的结构通过氨基酸位置和主链结构角度的图表示引导后续残基的选择，然而现有模型缺乏对特定表位的考虑。这个模型已被用于针对SARS-CoV-1和SARS-CoV-2的抗体设计。

在蛋白质设计领域，DL的最新进展显示出了希望，特别是在适应成功的抗体设计任务方面，如幻觉和扩散模型。幻觉技术使用现有的机器学习模型从随机序列生成3D蛋白质结构，通过预测α-C距离，然后通过引入突变的蒙特卡洛模拟进行结构优化和细化。细化过程旨在使生成的结构更接近真实的蛋白质结构。

FvHallucinator是一种基于幻觉的序列设计方法，它蛋白设计扩展到抗体可变区设计，使用参考结构（固定骨架设计，见上图C）产生Fv序列库。没有野生型种子，该模型的性能显著下降，大约为15-50%（CDRH3的恢复率）。幻觉技术的局限性在实验中变得明显。使用这些方法生成的结构通常在实验室环境中无法产生正确折叠的蛋白质。这些技术在设计较大的分子时也面临困难，因为它们主要关注较小的蛋白质。

扩散涉及向蛋白表示中引入噪声，直到它们变成高斯噪声。之后，训练一个DL模型来逆转这一过程，将噪声转化为现实的蛋白质结构。对于蛋白质设计，最有趣的方法之一是RFdiffusion，它建立在RosettaFold的微调版本之上。利用扩散模型进行抗体结构和序列的共设计，这类算法有：

DiffAb，这是一个深度生成模型，结合了去噪扩散概率模型（DDPM）和等变神经网络，用于CDRs的序列和结构共同设计。然而，DiffAb需要一个相对于抗原的抗体框架的起始结构。

AbDiffuser可以独立地共同设计可变长度的序列和结构，消除了对起始结构的需求。然而，它没有考虑抗原或表位。

Cohen等人介绍了EAGLE，这是一种基于扩散的抗体序列设计新模型。EAGLE可以使用ESM嵌入生成各种长度的抗体序列，在不需要输入骨架结构的连续空间中操作。该模型通过CLIP模块在训练过程中纳入表位结构信息。

结构和序列的抗体设计模型的对比

虽然扩散模型在塑造具有简单功能的蛋白质方面表现出色，但它们在处理像抗体这样的复杂结构时面临挑战，并且在创造完全新颖的序列方面存在困难。这些算法归纳在下表或论文中的表4。

抗体结构预测

设计出抗体序列之后，紧接着的一个关键步骤是确定其结构。理解抗体结构的复杂性对于获得它们特定的特性知识至关重要，包括特异性和亲和力。CDR-H3环的多样性源于它们独特的生物学过程，在广泛的筛选过程中对所有环结构和相互作用进行单独评估存在挑战。为了应对这些挑战，出现了各种深度学习方法，见下表或论文表5：

抗原抗体相互作用预测

抗体-抗原相互作用预测，是有效抗体设计的关键要素一旦抗体和抗原的结构可用，它们就成为评估其结合潜力的宝贵算法。Ab设计的初始步骤之一通常涉及准确预测互补位和/或表位区域。虽然从技术上讲，Ab-Ag相互作用是蛋白质-蛋白质相互作用 (PPI) 的一个子集，但很明显，这些相互作用及其界面具有独特的特征。这些独特的特性使得一般的蛋白质相互作用预测方法不太适合抗体相关的应用。请参阅下表或论文里的表6，了解以下小节中将介绍的方法的概述。

抗原抗体对接

准确的互补位-表位预测对于缩小对接搜索空间非常重要。对接是预测蛋白质-配体复合物的结合模式和相对位置的过程。分子对接由两个基本阶段组成：采样，涉及生成刚性3D配体的不同构象以探索其构象空间；以及评分，评估每个蛋白质-配体复合物（姿势）的结合亲和力。虽然通常是独立看待的，但这些阶段可以相互关联，评分函数会影响采样过程。

蛋白质对接方法大致分为柔性对接和刚体对接，其速度比柔性对接更快，但准确性较低。对接广泛用于协助药物设计中的不同任务。例如，它在优化分子相互作用以增强药物疗效方面发挥着至关重要的作用。表7中对以下章节中介绍的对接方法进行了比较。

灵活的蛋白质-配体对接的一个有趣的例子是GeoDock它采用基于AF的架构（图和结构模块）。它擅长适应蛋白质和配体的构象变化，使其可用于研究各种蛋白质-配体相互作用。GeoDock的创新在于它能够通过将柔性配体编码到分子图中来处理柔性配体。

此外，将注意力机制纳入MolGCN使模型能够专注于分子图最相关的部分，以准确预测结合亲和力。该方法可能是Ab-Ag对接的一个有趣的起点。

DLAB更加注重定制方法，通过使用759个抗体-抗原复合物的数据集重新训练CNN，改进了对接姿势排序，并识别了具有更高准确度潜力的抗体-抗原对。

为了评估蛋白质对接，Chen等人的一项研究中引入了一种名为PointDE的新工具。PointDE采用应用于3D点云数据的多个PointMLP (PMLP)，通过评估对接诱饵是否与天然结构非常相似来评估蛋白质对接的质量。该方法也用于评估抗体-抗原复合物。分子对接在准确表示结合方面面临挑战，特别是对于抗体及其蛋白质对应物等灵活分子，并且蛋白质对接的准确性受到算法限制和结构不确定性的限制，特别是在CDR-H3环中。

这些算法的归纳在下表，细表见论文的表7。

抗体的可开放性

计算方法对于评估您的in silico模型的可开发性作为最终检查至关重要。评估可开发性对于评估具有最小风险的单克隆抗体（mAb）候选物至关重要。关键方面包括稳定性、聚集性、免疫原性和化学降解。这种评估应该同时使用体外和in silico方法。深度学习（DL）能够快速生成多样化的抗体。然而，体外测试是必要的，以验证它们结合目标抗原的能力和发现任何可开发性问题。这个过程需要大量资源。因此，初步筛选以识别低风险序列或结构是必不可少的。虽然由于主题的广泛性质，这项调查缺乏详细程序，但Khetan等人的综述为可开发性评估提供了数据库、工具和指导方针的全面概述。

结论

尽管抗体设计技术对于在各种任务中增强数据非常有价值，但它们通常依赖于AAR类型的度量标准，忽视了不同的抗体序列可以结合到同一抗原的可能性。因此，验证这些方法学需要费力且资源密集的体外测试。一个可能的解决方案是识别与抗体特性一致的设计度量标准，并探索DL方法来评估可开发性。

DL方法的进步在优化抗体开发工作流程和提高生物治疗药物的有效性和可扩展性方面显示出了前景。

参考文献

Joubbi, Sara, et al. "Antibody design using deep learning: from sequence and structure design to affinity maturation." Briefings in Bioinformatics 25.4 (2024). https://doi.org/10.1093/bib/bbae307

本文转载自【AI4Protein】公众号

--------- End ---------

感兴趣的读者，可以添加小邦微信加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。