社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

江南大学倪晔/许国超组Nat Comm|机器学习增强羧酯酶的立体选择性发散进化

遇见生物合成 • 6 月前 • 270 次点击  

遇见/摘要

羧酯酶是手性羧酸和酯类对映体选择性合成的有效生物催化剂。对于近对称酯类化合物,天然的羧酯酶对映选择性表现较差。虽然机器学习能有效加快定向进化,但由于缺乏预测羧酯酶对映体选择性的模型,阻碍了研究的进展,主要难点是高质量的训练数据集的获得。在本研究中,利用高通量筛选获的高质量的数据集,训练出梯度提升的回归树模型,以促进立体选择性进化,获得了立体选择性互补的突变体。

遇见/内容

酶在合成生物学和生物催化领域引起了相当大的关注,被广泛誉为光学活性化学品生物合成的首选。酶在活性中心内立体化学结构通常表现为独特的空间、疏水和静电特性,构成了高立体选择性的基础。然而,在对于具有几乎对称结构的底物时,酶在保持高立体选择性方面面临挑战。手性环己-3--1-羧酸(CHCA)具有一个几乎对称的六原子环,是合成各种药物、农用化学品和天然产物的关键组成部分。这些底物通常被认为是难以区分的,被化学催化剂和生物催化剂都难以识别。定向进化在加速立体选择性酶的开发中起着关键作用,在催化难以区分的底物时,也面临一定的挑战。

机器学习(ML)作为一种强大的计算工具,它为基于大量高质量数据和统计模型促进定向进化提供了更直接的捷径。ML是数据驱动的,可以识别催化模式,预测有用的突变体,并擅长预测定向进化的新替代组合。ML预测的成功取决于训练数据集的质量,生成高质量的数据集和选择合适的描述符是ML预测成功的关键。

在这项研究中,首先,我们提出了一种高通量方法来生成羧酸酯酶AcEst1的高质量数据集。通过将水解反应与醇脱氢酶(ADH)催化的氧化反应偶联来确定对(R)-(S)-CHCE的初始反应速率,(R)-(S)-CHCE之间的初始反应速率之比,称为表观对映选择性(Eapp)。这种方法依赖于真实底物并准确反映了实际的反应动力学。我们对醇脱氢酶进行筛选并对ADH10进行了催化活性的改造,得到催化活性显著提高和亲和力提升的双突变体ADH10V84L/F197V,并对催化剂量、辅酶、pH和底物浓度等进行优化,获得最佳的高通量筛选条件。

随后,为了收集关于AcEst1突变体对映选择性的多样化和高质量数据集以构建ML预测因子,确定了位于催化S201周围20个非保守残基用于饱和突变。在删除失活突变体的数据后,在1920个突变体中获得760个高质量数据集,利用羧酯酶的生化特征包括体积、疏水性、亲水性、静电、氢键、π-π相互作用和到催化残基的距离用于训练ML模型。我们评估了包括核岭回归(KRR)、高斯过程回归(GPR)、梯度提升回归树(GBRT)、随机森林回归(RFR)、支持向量回归(SVR)和贝叶斯岭回归(BRR6个回归模型在AcEst1的对映选择性与7个生化特征之间的相关性。根据回归结果,GBRT的表现优于GPRKRR RFRSVRBRR。决定系数(R2GBRT模型的值达到0.93,均方误差(MSE)为0.12。景观分析显示数据分布平滑,表明GBRT性能优异。KRRSVRBRREapp的预测无效,表现出较低的R2值(低于0.55)。RFR显示出比GPR更好的性能,具有更高的R2和较低的MSE。然而,RFR预测Eapp升高突变体的能力不如GBRTGPR稳定。在我们的模型中高质量的数据集和生化特征的结合获得更高的R2,尝试减少特征数量并重新训练GBRT模型导致相关性降低,证明了这七个特征的协同效应。

为了提高经过训练的GBRT预测模型的准确性,我们系统地组合了有利的单突变体来生成双突变体。Eapp增加或降低的所有单个突变体配对,获得各种双突变体。V257M/Y228MEapp值最高(13.8),而L297F/L249AEapp最低(0.36)。这些双突变体的加入进一步丰富了用于重新训练GBRT模型的数据集。然后使用单突变体和双突变体对GBRT预测因子进行重新训练。重新训练的GBRT预测因子表现出出色的性能(R20.97MSE0.11),应用于下一步指导AcEst1立体发散进化的组合突变(1)。


高质量的位点特异性饱和突变结果和预测AcEst1Eapp机器学习模型的开发


将经过训练的ML预测模型应用于设计组合突变体。考虑到V257ML297FEapp最高和最低的单个突变体,它们被选为(R)-选择性和(S)-选择性AcEst1突变体立体发散进化的起点。因此,V257ML297F分别被指定为 DR1DS1,并利用GBRT预测组合突变的Eapp。对于(R)-选择性进化,为了验证GBRT预测结果的准确性,我们实验构建了DR1DR2DR3,通过实验确定它们的对映选择性值(E值)。E值从WT7.3逐渐增加到DR140.1DR259.1DR3103。同样构建了(S)-选择性的突变体DS1-6DS6E值为−11,显著低于WT。虽然DS6的对映选择性不如DR3高,但考虑到(R)-(S)-S1近乎对称的结构,对AcEst1的选择性已经算是相当显著的变化。因此,使用我们训练的GBRT预测因子,已经实现了AcEst1向近乎对称酯的立体发散进化,从而产生了两个立体互补突变体(图2)。这些突变体进一步用于合成手性CHCA的两种对映异构体。


2 ML 指导的AcEst1(R)(S)-选择性突变体的立体发散进化


最后我们对互补突变体的催化潜力进行评估,并在1 M底物浓度下实现(R)(S)-CHCE的生产与分离。采用分子动力学(MD)模拟及QM/MM计算解释了羧酯酶及其突变体立体选择性控制的分子机制(3)


使用QM/MM计算进行WTDR3DS6的互补对映选择性和自由能分析


江南大学博士研究生窦哲为论文第一作者,倪晔教授和许国超副教授为论文共同通讯作者。上述研究得到了国家重点研发计划(2019YFA0906401)、国家自然科学基金(22078127, 22378169)等项目的资助。

遇见/致谢

感谢许国超老师课题组对本号的支持,感谢该课题组提供本文稿件支持!
往期精选▼

1. Nat Commun| 浙江大学医学院王健博团队联合暨南大学张志民、周洋团队解析糖基转移酶化学选择性机制及打造糖基化平台的研究

2. 江南大学聂尧组NPR综述文章|天然产物合成中的Fe(II)和2-酮戊二酸依赖型双加氧酶:反应多样性的分子见解

3. 西南大学牛国清组ACS SynBio|链霉菌鼠李糖诱导表达系统的创制与应用

4. 江南大学陈坚团队刘龙组Adv Sci|基于多组学与机器学习的枯草芽孢杆菌全基因组代谢模型优化基因表达与细胞生长预测

5. Nat Commun|中科院化学所敖宇飞/北师大申林合作建立酰胺水解酶立体选择性预测模型

本期参考文献:

https://www.nature.com/articles/s41467-024-53191-8

遇见生物合成

合成生物学/天然产物生物合成

姊妹号“生物合成文献速递”

谢谢支持,我们需要您的一个“在看”

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/175238
 
270 次点击