融合结构和序列信息是抗体设计中的一个前沿领域(见上图CD或下表)。通过整合这些互补的信息源,AI模型能够解读序列变化与结构适应之间的复杂关系,提供对抗体形式与功能之间复杂相互作用的洞察。例如:
RefineGNN是一个基于自回归(AR)的抗体生成模型,它迭代地细化序列和预测的全局结构。推断出的结构通过氨基酸位置和主链结构角度的图表示引导后续残基的选择,然而现有模型缺乏对特定表位的考虑。这个模型已被用于针对SARS-CoV-1和SARS-CoV-2的抗体设计。
在蛋白质设计领域,DL的最新进展显示出了希望,特别是在适应成功的抗体设计任务方面,如幻觉和扩散模型。幻觉技术使用现有的机器学习模型从随机序列生成3D蛋白质结构,通过预测α-C距离,然后通过引入突变的蒙特卡洛模拟进行结构优化和细化。细化过程旨在使生成的结构更接近真实的蛋白质结构。
FvHallucinator是一种基于幻觉的序列设计方法,它蛋白设计扩展到抗体可变区设计,使用参考结构(固定骨架设计,见上图C)产生Fv序列库。没有野生型种子,该模型的性能显著下降,大约为15-50%(CDRH3的恢复率)。幻觉技术的局限性在实验中变得明显。使用这些方法生成的结构通常在实验室环境中无法产生正确折叠的蛋白质。这些技术在设计较大的分子时也面临困难,因为它们主要关注较小的蛋白质。
扩散涉及向蛋白表示中引入噪声,直到它们变成高斯噪声。之后,训练一个DL模型来逆转这一过程,将噪声转化为现实的蛋白质结构。对于蛋白质设计,最有趣的方法之一是RFdiffusion,它建立在RosettaFold的微调版本之上。利用扩散模型进行抗体结构和序列的共设计,这类算法有:
DiffAb,这是一个深度生成模型,结合了去噪扩散概率模型(DDPM)和等变神经网络,用于CDRs的序列和结构共同设计。然而,DiffAb需要一个相对于抗原的抗体框架的起始结构。
AbDiffuser可以独立地共同设计可变长度的序列和结构,消除了对起始结构的需求。然而,它没有考虑抗原或表位。
Cohen等人介绍了EAGLE,这是一种基于扩散的抗体序列设计新模型。EAGLE可以使用ESM嵌入生成各种长度的抗体序列,在不需要输入骨架结构的连续空间中操作。该模型通过CLIP模块在训练过程中纳入表位结构信息。