【生物催化】一种实用的机器学习辅助蛋白质工程研究范式

遇见/摘要

在生物催化领域，蛋白质工程已成为调控酶的稳定性、催化活性和选择性的重要工具。然而由于实验筛选过程耗时耗力，想要完全探索巨大的蛋白质突变空间是不现实的。因此人们开发了定向进化以及理性设计等方法，用以通过有限的筛选有效地找到更好的突变体，但这两种方法通常只能搜索部分突变空间，导致错过大量性能优异的突变体。随着人工智能革命影响到人类生产和生活的各个方面，传统的研究模式也在发生着根本性的变化。具体到生物催化领域，机器学习（ML）已被用于蛋白质的理性改造，从而调节诸如环氧化物水解酶、还原胺化酶等生物催化剂的催化活性或立体选择性。这种数据驱动的策略可以通过从收集的数据中识别催化模式，来设计新的突变组合，因此该策略有望大大减少传统策略所需的计算和实验工作。

在前期的研究中，中国科学院化学研究所敖宇飞副研究员，德国Greifswald大学U. T. Bornscheuer教授，以及北京师范大学理论及计算光化学教育部重点实验室申林教授合作建立了转氨酶3FCR的催化活性和选择性机器学习模型（Angew. Chem. Int. Ed. 2023, 62, e202301660）。他们利用基于结构的理性改造策略快速获得多样性高的催化性能数据，并设计出一套改进型独热（one-hot）描述符，用以描述底物和氨基酸的电子效应和位阻效应；在此基础上建立梯度提升回归树（GBRT）模型，成功地预测了转氨酶3FCR催化不同底物反应的活性和立体选择性，进而不断加入新的数据，提升机器学习模型性能；此外还将其应用于设计具有更高催化性能的突变体，展示了数据驱动的蛋白质工程的应用潜力。

尽管这些例子证明了 ML 方法与传统蛋白质工程方法相比在理论和策略上的优势，但该方法的实用性仍然不足。一个主要问题是，机器学习模型只能通过在大型数据集上进行训练来建立，而大型数据集通常需通过深度突变扫描（DMS）等费时费力的试验来收集。因此，我们设想了一个实用的蛋白质工程研究范式，在这个过程中，ML 方法不是定向进化和理性设计的竞争方法，而是它们的重要补充（图 1）。具体来讲，首先依靠传统的定向进化和理性设计方法获得具有良好催化性能的变体，利用在此过程中获得的实验数据建立目标底物的 ML 模型，将其应用于设计更好的变体，并通过不断迭代提升模型预测精度。

图1. 机器学习辅助的蛋白质工程研究范式

遇见/内容

作者选择了转氨酶催化合成具有大位阻取代基的手性胺（1-3）作为模型反应展示这种研究范式（图2）。在Bornscheuer课题组早期的研究中（Nat. Chem. 2016, 8, 1076-1082），通过定向进化策略发现转氨酶3FCR的突变体3FCR-Y59W/Y87F/T231A (3FCR-3M) 和3FCR-Y59W/Y87F/T231A/Y152F (3FCR-4M)可以大大提高其催化活性。为了进一步提高其催化活性，开展了本研究工作。首先对催化活性中心及底物通道部分的12个氨基酸位点进行理性设计，并测定所获得的83个突变体的催化活性值。

图2. 转氨酶催化具有大位阻取代基的手性胺的合成

在获得上述催化性能数据后，作者利用之前设计的独热编码描述符，将酶关键氨基酸的结构信息作为输入特征，以催化活性为标签，建立了GBRT模型，其预测精度初步满足理论设计的要求（图3A）；随后将此模型用于设计3FCR-3M和3FCR-4M的定向进化，借助于虚拟筛选的结果设计了10个可能具有更高活性的突变体。与已有的最优突变体相比，这些利用数据驱动策略设计的突变体活性提高可达3倍（图3B，3C）。作者进一步将所得到的的突变体用于手性胺1-3的不对称合成，实验表明这些突变体展现出更高的催化活性及相当的高对映选择性（图3C）。这一工作很好地展示了图1所示研究范式的应用潜力。

图3. 不同突变体催化不同底物反应的比活性

这一成果近期发表在ACS Catalysis上， Greifswald大学博士生M. J. Menke为论文第一作者，中科院化学所敖宇飞与Greifswald大学U. T. Bornscheuer为论文的通讯作者。论文中实验部分由M. J. Menke和敖宇飞共同完成，机器学习和突变体设计由敖宇飞完成。本工作得到了德国研究基金（NFDI4CAT，01DD20002C）和国家自然科学基金（21977098）的支持。

遇见/致谢

感谢敖宇飞老师课题组对本号的支持，感谢该课题组提供本文稿件支持！

往期精选▼

1. 中科院化学所敖宇飞/格赖夫斯瓦尔德大学Bornscheuer合作Angew｜建立转氨酶催化性能预测模型并用于数据驱动的蛋白质工程

2. 中科院化学所敖宇飞组ACS Catal | 理性设计实现酰胺水解酶的对映选择性调控

3. 浙江科技学院黄俊组合作Engineering｜理性改造ω-转氨酶实现西那卡塞关键手性中间体高效合成

4. 华理魏东芝团队Angew｜基于量化计算联合Rosetta酶设计策略提高ω-转氨酶催化效率

5. 多伦多大学JACS|羧酸还原酶和转氨酶级联-端二酸向端二胺的一锅法催化

遇见生物合成

合成生物学/天然产物生物合成

姊妹号“生物合成文献速递”

谢谢支持，我们需要您的一个“在看”