编辑 | 郑婧博

审核 | 王紫嫣

今天介绍一篇发表在Nature Microbiology上的论文：“Explainable deep learning and virtual evolution identifies antimicrobial peptides with activity against multidrug-resistant human pathogens”。随着抗生素耐药性问题的日益严重，计算机辅助抗菌肽（AMPs）设计成为一种重要的研究方向。然而，尽管传统的机器学习模型在预测肽的抗菌活性方面表现出色，但它们通常缺乏对肽序列优化过程的可解释性，导致难以指导实际的肽设计。为了解决这一问题，本文提出了一个集成的计算框架，包括三个主要部分：AMP-CLIP（AMP CLassifier with Improved Precision）、AMP-READ(Antimicrobial Peptide Regression and Analysis for Drug Discovery)和EvoGradient(Evolutionary Gradient-based Optimization for Antimicrobial Peptides)。

AMP-CLIP是一种基于深度学习的分类模型，通过整合CNN、LSTM、Attention和Transformer四种架构，能够高精度地识别抗菌肽。AMP-READ则是一个回归模型，对AMP-CLIP的预训练框架进行适应性调整，能够准确预测肽的最小抑制浓度（MIC），从而量化其抗菌效力。EvoGradient是一种基于梯度分析的虚拟定向进化算法，通过结合AMP-READ的预测能力和梯度信息，逐步优化肽序列以提高其抗菌活性。通过将可解释性作为生成机制的核心约束，EvoGradient旨在弥合计算机辅助抗菌肽设计与实际合成能力之间的差距。作者通过实验验证了优化后的肽在抗菌活性和安全性方面的显著提升，并通过识别和解决梯度分析中存在的挑战，提出了多种策略来增强模型的优化能力，从而成功设计出具有高效抗菌活性的新型肽。

介绍

抗生素极大地改变了现代医学，延长了人类平均寿命，但数十年的不当使用导致微生物产生了多种耐药机制，使得细菌感染再次成为公共卫生问题。为应对这一挑战，研究人员正在探索多种发现新抗生素的策略，包括从难以培养的微生物中寻找抗生素，从人类和动物微生物组中挖掘新的生物活性分子、激活细菌和真菌中的隐性生物合成基因簇以产生新的抗菌天然产物，以及开发先进的实验室技术和计算机算法来筛选合成化合物中的抗菌剂。抗菌肽（AMPs）是一种小肽，能够抑制多种微生物（包括细菌和真菌）的生长，具有广泛的特异性和作用机制，并且对耐药病原体有效。近年来，计算方法被开发用于加速AMP的发现，其中定量构效关系（QSAR）模型和深度学习（DL）模型被广泛用于AMP的预测。然而，这些模型大多缺乏可解释性。本文介绍了一种具有可解释性的深度学习模型，能够准确预测肽的抗菌活性，并开发了一种用于AMP虚拟定向进化的算法，以增强肽的抗菌效力。通过分析人类口腔微生物组中的38个细菌基因组，该模型成功筛选出32种强效AMP，并在体外实验中选择了最佳AMP，该AMP在小鼠肌肉感染模型中消除了超过95%的细菌负荷，且无系统毒性。

方法

AMP分类模型的预训练

作者首先开发了用于AMP分类的DL模型，采用四种DL架构：CNN、LSTM、Attention和Transformer。为了减少模型将非AMP错误预测为AMP的假阳性（FP）结果，作者引入了一种保守的损失函数，通过在交叉熵损失的基础上增加一个基于模型预测与实际标签差异的惩罚项来实现。这种惩罚机制使得模型预测更加谨慎，从而降低FP率。此外，作者采用了多模型集成策略，只有当四个模型都识别肽为AMP且预测概率超过0.5时，才将其分类为AMP，进一步提高了方法的精确性。

模型结构

作者设计的四个DL模型如图1所示。

CNN

第一个模型是CNN模型，旨在捕获肽序列中相邻AA之间的依赖关系。该模型利用一个嵌入层来表示AA序列，然后是三个具有不同滤波器大小的1D Conv层来提取局部特征。这些卷积层由一个1D密集层补充，作为最大池化层，捕获最突出的信息。最后，采用密集层作为分类头根据提取的特征进行预测。

LSTM

作者设计了LSTM模型来捕获序列中的长期依赖关系，该架构包括一个嵌入层来表示肽，紧随其后的是双LSTM层，它捕获了向前和向后的顺序依赖关系。然后将嵌入层的输出与bi-LSTM 层的输出连接起来，使模型能够捕获局部和全局信息，密集层随后被用作分类头，根据学习到的表示进行预测。

Attention

此外，还引入了一个注意力模型来捕捉长期关系并专注于决定性的AA。此体系结构还包括一个嵌入层，多头注意力层允许模型捕获不同位置之间的相互依赖关系，分配对单个AA的不同程度的重要性。然后，注意力层的输出通过作为分类头的密集层，从而能够预测肽的抗菌活性。

Transformer

同样，构建了一个Transformer模型来捕获AA之间的复杂依赖关系。Transformer 架构由一个AA嵌入层和一个位置嵌入层组成，该模型包含两个编码器，每个编码器包括一个注意力层和一个前馈层，注意力层捕获了不同位置之间的关系，使模型能够有效地捕获长期依赖关系。最后，使用密集层作为分类头进行最终预测。

只有四个模型预测AMP的概率都大于0.5才会将该肽序列分类为AMP，否则为非AMP，如图2所示。

预训练

在将肽序列输入模型之前，执行了预处理步骤，将AA序列转换为固定大小的数值序列。具体来说，这20个AA中的每一个最初都被编码为一个唯一的one-hot向量。随后，采用零填充方法确保所有肽序列都对齐到均匀长度的100个AA。预训练阶段的主要目标是从输入肽中识别AMPs，本质上是执行二元分类任务，因此使用交叉熵损失作为训练的初始损失函数：

此阶段的另一个关键目标是最大限度地减少假阳性样本的发生并提高模型精度。为了应对这一挑战，作者设计了一个保守的损失函数，对模型生成的过于自信的预测施加惩罚：

在这个保守损失函数中，额外惩罚项能够将模型过度自信预测的正差异进行平方处理，增加损失值，这使得模型在预测正类时更加谨慎，从而减少假阳性。负差异则通过ReLU函数映射为零，不会增加损失值。

模型性能

模型在与训练集不重叠的测试集上进行了性能评估，评估指标包括精确度、准确度、召回率、F1分数、接收者操作特征曲线下面积（AUC-ROC）和精确率-召回率曲线下面积（AUC-PRC）。与仅使用交叉熵损失训练的模型相比，引入惩罚项的模型在精确度上有显著提升，而准确度略有下降。最终开发的集成模型AMP-CLIP实现了0.99的精确度和0.874的准确度，展示了其在AMP分类中的高效性和潜力，ROC和PR曲线如图3所示。

AMP回归模型的自适应调整

AMP-CLIP使用自适应调整，将连续MIC回归任务与AMP-CLIP预训练框架集成在一起，作者保留了预训练模型的结构和参数（之前训练的AMP-CLIP的四个分类器），用由密集层组成的MIC估计头代替了分类头，然后在具有MIC值的数据集中使用均方误差（MSE）对修改后的模型进行训练。

模型结构

对于回归模型AMP-READ，采用最大似然估计来线性组合来自四个回归模型的MIC预测，如图4所示。

自适应调优

当过渡到回归任务时，作者在自适应调优阶段的目标变成了最小化MSE：

模型性能

AMP-READ的集成回归模型在预测性能方面超过了以前的MIC预测模型。如图5和图6所示，集成模型的MSE最低，相关性最高。

利用EvoGradient进行抗菌肽的虚拟定向进化

梯度分析

EvoGradient

利用以上梯度分析的可解释性，作者开发了EvoGradient(以梯度引导进化)来虚拟定向进化一个AMP序列，如图8所示。该迭代过程将梯度下降与投影相结合，在原始肽段附近寻找局部最优序列，通过AMP-CLIP和AMP-READ对EvoGradient优化得到的AMPs进行验证。

正向传播可以获得原始肽的预测MIC值，然后，使用反向传播算法来计算预测MIC相对于输入序列的梯度，最后从输入向量x中减去比例梯度：

模式识别

利用得到的归一化重要性指标，建立合适的重要性指标阈值对于筛选关键AA至关重要。为了确定这个阈值，遍历了一系列的值。在每个阈值下，超过指定值的氨基酸被认为是关键氨基酸，而其余的则被归类为柔性残基。随后识别了序列中的子串，每个子串的长度从6到9个AA不等。此外，这些子串中的关键AA的数量必须至少构成子串本身长度的一半。整体流程如图9所示。

为了进一步验证这些模式的效果，作者进行了模式嵌入实验，首先从经过EvoGradient优化后的肽序列中选出几个活性较高的AMP进行模式识别，如图10所示。

将识别出的模式嵌入到一个已知活性较差的AMP（例如WWRWFR）中，然后通过AMP-READ模型预测这些嵌入模式后的肽的MIC值，并选择最具活性的序列进行体外测试，结果如图11所示，可以看出通过模式嵌入实验，生成的新的肽序列的活性有所提高，有些新肽对多种细菌都有较高的抗菌活性。

人类口腔微生物组AMPs的虚拟定向进化

人类口腔微生物组是一个复杂的群落，低丰度物种往往会产生化学武器来维持其生存并建立生态位。作者从人类口腔微生物组52中挑选低丰度物种，利用以上模型挖掘抗菌肽。所有长度为15~300个AA的小开放阅读框（sORFs）都是从NCBI数据库中提取的这些物种的基因组序列中预测得到的。考虑到在生物系统中不同的蛋白水解多肽会导致不同性质的产物，作者系统地研究了预测的sORFs的所有k-mer片段(k为5~50)。

将这些片段进行AMP-CLIP和AMP-READ预测，使用EvoGradient对每个分析菌株中预测活性最高的肽段进行虚拟定向进化。另外，从每个物种中随机选取60条活性不同的肽段序列进行虚拟定向进化。这些优化的肽序列通过AMP-CLIP和AMP-READ进一步分析，并随后化学合成用于抗菌活性测定的有效候选物，整体pipeline如图12所示。

结论

在这项工作中，作者介绍了一个用于生物活性肽预测和虚拟定向进化的可解释深度学习框架。与生成模型相比，该框架能够从不同自然来源进化出具有高度多样性的AMPs，避免了生成模型可能产生的过拟合和AI幻觉问题。此外，该框架的可解释性有助于验证可疑输出并引入人工监督。

EvoGradient与传统的基于规则分析的AMP优化方法不同，它在进化过程中进行了多种氨基酸替换，不仅依赖于氨基酸组成，还可能学习到人类专家难以察觉的特性。通过EvoGradient，作者发现了一个具有体内活性的AMP候选物，推测其通过靶向细胞膜并裂解细菌细胞发挥作用，但不排除其他作用机制（如与DNA/RNA结合、抑制蛋白合成或细胞分裂）。作者认为模型可能学习了训练AMPs的抗菌特性，这些特性可能与细胞膜以外的靶点相关。

该框架为自动筛选数据集和优化AMPs提供了一种新策略，成功从少量口腔细菌基因组中识别出具有体内活性的AMP。将其扩展到其他生物来源或更大的数据集有望发现更多AMPs。由于AMP的MIC数据稀缺，模型目前输出的是广谱活性肽。随着更多针对特定病原体的AMP的MIC数据的积累，模型可以被调整以产生窄谱AMPs。

参考资料

文章链接：

https://www.nature.com/articles/s41564-024-01907-3

代码链接：

https://github.com/MicroResearchLab/AMP-potency-prediction-EvoGradient

Nat. Microbiol. | 可解释的深度学习和虚拟进化识别具有抗多药耐药人类病原体活性的抗菌肽

介绍

方法

(adsbygoogle = window.adsbygoogle || []).push({}); AMP分类模型的预训练

模型结构

CNN

LSTM

Attention

Transformer

预训练

模型性能

AMP回归模型的自适应调整

模型结构

自适应调优

模型性能

利用EvoGradient进行抗菌肽的虚拟定向进化

梯度分析

EvoGradient

模式识别

人类口腔微生物组AMPs的虚拟定向进化

结论

参考资料

AMP分类模型的预训练