Nat. Commun. | 机器学习准确预测酶-小分子作用

点击蓝字关注我们

AItellU

编者 | 刹那芳华

制版 | 戈戈

第一作者：Alexander Kroll

通讯作者：Martin J. Lercher

第一单位：德国杜塞尔多夫海因里希·海涅大学

DOI：10.1038/s41467-023-38347-2

全文一句话速览

本文开发通用机器学习模型（ESP）用于预测酶-底物关系，ESP通过改进的transformer模型表示酶，并利用随机抽样的小分子为非底物进行数据增强训练，在独立和多样化的测试数据上预测准确率超过91%。

研究背景

了解酶及其底物之间的关系对于制药研究和生物工程中的各种应用是至关重要的。然而，酶-底物关系的实验测定既昂贵又耗时，导致对大多数酶的底物范围的了解有限。现有的机器学习方法要么专注于具有全面训练数据集的小酶家族，要么将底物与酶类而不是特定的酶联系起来。虽然已经有预测药物靶标结合亲和力和米氏常数的方法，但由于影响酶-底物结合的进化关系和自然选择，这些模型不能直接用于酶-底物对的预测。这项研究旨在开发一个机器学习模型，能够预测所有蛋白质的酶-底物关系，为优先处理生物相关的酶-小分子对的实验工作提供一个工具。

全文亮点

1.设计一种策略来获得合适的负样例（非结合酶-小分子对）以用于训练预测模型；

2.模型可预测不同酶家族中特定酶的底物；

3.开发服务器方便大众使用。

图文解析

1.获取数据集

模型的整体架构如图1 所示。使用UniProt IDs的GO注释数据库创建了酶-底物对的数据集，该数据库由实验确认以及系统推断的数据组成。实验数据集包含18,351对，共计12,156种酶和1,379种代谢物。相比之下，推断数据集由274,030对组成，其中酶与进化相关的酶与相同的反应有关。该数据集用于预训练，以生成基于氨基酸序列的酶表示。酶-小分子对负样例，是通过随机抽样人工创建的，专注于结构上与已知底物相似的分子。这一策略旨在建立分类结合反应物和非结合反应物模型。最终的数据集包括69,365个，分为80%的训练集和20%的测试集。为了避免模型性能高估，确保测试集中没有任何酶与训练集中的任何酶具有高于80%的序列同一性。

图1 模型架构

2.小分子数值向量表示

扩展连接性指纹（ECFP）可表示小分子。分子用图形表示，原子为节点，化学键为边。使用了的默认设置3次迭代和1024维指纹。但在数据集中，1379个不同的分子中有182个具有相同的指纹和结构相似的对应分子。作为替代，使用图形神经网络（GNN）学习小分子的图形表示到数值向量的映射。GNN被训练来预测一个小分子是否是给定酶的底物，而该网络则学习将相关信息存储在100维的向量中。为预测酶-底物对米氏常数KM的相关任务预先训练GNN，进一步提高了预测性能。与ECFP相比，GNN生成的指纹导致不同分子的相同表示的情况明显减少，1379个分子中只有42个共享相同的指纹。

3.最先进的蛋白质嵌入模型微调

ESM-1b模型是一个transform网络，它用2700万蛋白数据以自监督的方式进行训练。它以氨基酸序列为输入作为蛋白质嵌入。在训练过程中，随机遮掩15%氨基酸学习预测掩蔽氨基酸（图2a）。为了获得整个蛋白质固定长度的数值表示法，通常要计算所有氨基酸表示法的元素平均值。然而，这种方法可能会导致特定任务的信息丢失和性能不佳。为了解决这一问题，通过修改ESM-1b模型架构创建了任务特定的酶表示法。添加了一个额外的1280维特征来表示完整的酶，允许提取特酶信息（图2b）。将酶表示与小分子ECFP载体结合，然后将得到的载体用作全连接神经网络的输入，以预测小分子是否为酶的底物。

图2 从ESM-1b模型开发的任务特异性酶表示

4.预测酶-底物对

为了评估不同酶表示和小分子表示的性能，使用每种酶和小分子表示的组合来训练和测试机器学习模型。这些模型是通过将酶表示与小分子表示连接起来形成酶-小分子对的输入载体而创建的。用这些数据训练梯度增强决策树模型，用于预测小分子是否为酶底物的二分类任务。使用随机网格搜索和5次交叉验证优化超参数（图3a）。然后在整个训练集上用优化的超参数对模型进行训练，并在独立的测试集中进行验证。

准确度、ROC-AUC评分和Matthews相关系数（MCC）等性能指标结果表明，具有任务特定酶和/或小分子表示的模型比具有通用表示的模型性能更好（图3）。性能最好的模型利用了微调的ESM-1b酶表示和GNN生成的小分子指纹，实现了91.5%的准确率，ROC-AUC=0.956，MCC=0.78。Logistic回归和随机森林模型也被训练过，但表现不如梯度增强模型。为预测米氏常数KM的任务预先训练GNN提高了模型的性能。再训练和微调ESM-1b模型通过为整个酶添加额外的特征，使模型能够存储预测任务的相关信息，使性能显著提高。

图3 优化模型准确预测酶-底物对

5.对未知酶的预测

研究了预测质量对酶与训练集相似性的依赖关系。对于测试集中的所有2291种酶，计算了测试集中的酶和训练集中的酶之间的最大序列同源性。然后根据序列同源性将测试集分为三个亚组：0-40%、40-60%和60-80%，测试模型性能。结果表明，ESP模型对序列同源性高（60%~80%）的酶具有最高的预测精度，准确率达到95%，ROC-AUC=0.99，MCC为0.88。

对于中等序列同源性（40%-60%）的酶，该模型也取得良好的结果，准确率为93%，ROC-AUC=0.97，MCC为0.83。对于序列同源性较低（0-40%）的酶，该模型仍然提供了可靠的预测，正确分类了89%的数据，ROC-AUC=0.93，MCC为0.72（图4）。这些发现表明，虽然在训练过程中使用更多相似的酶可以提高预测质量，但对于与训练集中的酶相似性小的酶，该模型仍然可以达到较高的准确率。

图4 模型对不同同源性等级酶测试集的预测性能

6.ESP网络服务

开发Web服务器以方便大众使用ESP（https://esp.cs.hhu.de）。其输入为酶氨基酸序列和小分子的表示（SMILES、KEGG化合物ID、InChI字符串）。用户可以将单个酶-小分子对输入到在线表格中，也可以上传包含多个这样的对的CSV文件。除了预测分数，ESP网络服务器还报告输入的代谢物在训练集中作为真实底物出现的频率。

通讯作者介绍

Martin J. Lercher，德国杜塞尔多夫海因里希·海涅大学教授。研究方向：新陈代谢细胞系统的分子组织和进化。

编者有话说

ESP在预测酶的底物方面表现出很高的准确性，在独立的测试集上达到了91%以上的准确率，即使对于与训练集中序列同源性较低的酶（<40%）也有较强预测能力。该模型结合了使用GNN的小分子任务特定指纹识别和基于其氨基酸序列酶的数字表示作为输入，强调了任务特定酶表示法比通用酶表示法的优势，并通过采用精心设计的负酶分子对采样策略，解决了有限的实验确认的非结合酶-底物对的挑战。未来可在改进负面数据点的选择，并探索新模型架构进行后续研究，进一步提高模型的预测能力。

转载须知

【原创文章】AItellU原创文章，欢迎个人转发分享，未经允许禁止转载，所刊登的所有作品的著作权均为AItellU所有。AItellU保留所有法定权利，违者必究。

投稿、转载及合作邮箱：

zjhuangjunjie@163.com

原文链接：

https://www.nature.com/articles/s41467-023-38347-2

点击下方蓝字阅读原文