社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【深度学习】通过深度学习理解酶的温度适应性

GoDesign • 2 年前 • 356 次点击  
背景——

自然界生物经过数亿年的进化,已经能适应从-10℃直到110℃的温度环境。生物对高温环境的适应能力与其体内蛋白质、特别是酶的温度适应性密切相关。探索影响生物体内酶温度适应能力的因素,是基础生物学、蛋白质工程和药物研发等领域的重要问题之一。已有大量研究分析了温度对蛋白质折叠、蛋白质生物学功能和生物体各系统功能等的影响,但蛋白质序列本身如何影响其温度适应能力,目前仍不是十分清楚。

最近,来自瑞典Chalmers University of TechnologyMartin Engqvist课题组用一维卷积提取酶序列特征,训练了一个CNN模型DeepET来预测酶对应生物体的最佳生长温度(Optimal growth temperature, OGT),又通过迁移学习方法将DeepET学到的蛋白质序列表示用于酶最适温度Topt和熔点TM的预测,结果均超越了已有的最优方法。最后,作者分析了酶序列的统计特征对模型预测结果的影响,推断出对酶适应高温环境最重要的一些氨基酸残基种类和二级结构,还分析了具备高热稳定性的酶可能的生物学功能。相关成果于1020日发表在Protein Science1

——方法与结果——

构建预测酶对应生物体OGT的模型DeepET
作者在过去的工作中2收集得到了约650万条不同酶序列与其对应生物体OGT的数据集(OGT数据集),数据集包含了大量细菌、真核生物和古菌体内酶的序列信息和物种的最佳生长温度。清洗后数据的分布如图1a1b所示。作者搭建了一个带有残差的CNN(卷积神经网络)模型(图1c),使用一维卷积操作提取酶序列的特征,然后预测酶对应生物体的OGT。作者得到的最优模型在测试集上RMSE约为5.5 ℃,R2约为0.59Pearson相关系数为0.77,对数据拟合较好(图1d)。
1 (a)OGT 数据集中细菌、真核生物和古菌的OGT分布,括号中为该类型物种总数;(b)OGT数据集的整体分布;(c)DeepET模型架构,输入蛋白序列被表示为矩阵,每行表示一个氨基酸残基的one-hot编码,序列长度固定为2000,不足部分以0填充;(d)DeepET模型的测试集结果,RMSE:均方根误差;ρpPearson相关系数;ρsSpearman相关系数

用迁移学习预测酶的最适温度和熔点
接下来,作者用迁移学习方法训练DeepET模型预测酶的最适温度(Topt)和熔点(Tm)。作者从文献中分别收集得到酶最适温度的实验数据1902TOPT数据集)3和酶熔点的实验数据2506条(TM数据集)4。这些数据可以通过两种方式对DeepET模型进行微调:冻结CNN网络参数,训练全连接层(FrozenCNN);训练全部网络参数(TuneAll)。作为对照,作者还测试了仅使用两个数据集从头训练模型(From Scratch)和直接使用DeepET预测(FrozenAll)的结果。为了对比使用DeepET学到的酶序列特征和使用其他常用蛋白质序列特征的效果,作者使用iFeatures5UniRep6两种特征结合多种传统回归模型在TOPT数据集和TM数据集上进行了训练和测试。TOPT数据集上的结果如图2a2d所示,TM数据集上的结果如图2b2e所示。可以发现迁移学习方法能有效实现小规模数据集上的准确预测,其R2高于从头训练的模型和使用常用序列特征的传统回归模型。不过迁移学习不仅对小规模数据集有效。作者又从Meltome7收集了一个更大的酶熔点数据集MELT,其含有41725条酶的熔点数据。在这一数据集上,迁移学习的效果也优于从头训练的模型(图2c2f)。
2 (a)-(c)不同模型在三个数据集上的测试结果,(a)TOPT数据集,(b)TM数据集,(c)MELT数据集;(d)-(f)从三个数据集上训练得到的最优模型在测试集上的预测结果, (d) TOPT数据集,(e)TM数据集,(f)MELT数据集

探索影响酶温度适应能力的因素
为了探索序列中影响酶温度适应能力的因素,作者选择预测Topt的最优模型,通过扰动模型的输入序列来确定对预测结果影响最大的氨基酸残基位点。具体来说,对同一条序列,作者每次选择其中一个位点,将以位点为中心前后连续的5个氨基酸残基的编码置零,预测扰动后序列的Topt,如此遍历序列中的全部位点(向序列两端补齐与各端相同的残基,使得序列中每个位点都能被扰动)。扰动后显著改变预测结果的位点是决定酶最适温度的关键位点。对于这些关键位点上的氨基酸残基类型分布和二级结构类型分布,嗜热生物体内的酶和全体酶的平均结果存在显著差异(图3、图4)。作者还分析了含有这些关键位点比例较高(>30%)的蛋白结构域在嗜热生物体内所对应的酶。对这些酶的功能分析表明,它们主要参与嗜热生物的代谢过程和应激反应过程。这意味着嗜热生物能适应高温很可能是由于这两种生物过程中酶的热稳定性增强。
嗜热生物体内酶序列上关键位点各氨基酸残基的平均占比(黑色)与全体酶平均值(橙色)
嗜热生物体内酶各二级结构的平均占比(黑色)与全体酶平均值(橙色),横轴为DSSP二级结构符号

——小结——

作者构建了从酶序列预测酶对应生物体OGTCNN模型DeepET,又用迁移学习方法将DeepET用于酶最适温度和熔点的预测中,取得了比现有方法更好的结果。作者进一步通过扰动DeepET 的输入序列,探索了与酶热稳定性有关的氨基酸残基、二级结构和结构域。DeepET从计算角度提出了对酶温度适应性的新见解,有良好的预测能力,未来可能在解释蛋白质热稳定机制、酶的热稳定性改造等方面发挥更多作用。

参考文献:
1. Li, Gang, et al. "Learning Deep Representations of Enzyme Thermal Adaptation." Protein Sci. (2022): e4480. DOI: 10.1002/pro.4480
2. Li, Gang, et al. "Machine Learning Applied to Predicting Microorganism Growth Temperatures and Enzyme Catalytic Optima." ACS Synth. Biol. 8.6 (2019): 1411-20. DOI: 10.1021/acssynbio.9b00099
3. Leuenberger, Pascal, et al. "Cell-Wide Analysis of Protein Thermal Unfolding Reveals Determinants of Thermostability." Science 355.6327 (2017): eaai7825. DOI: 10.1126/science.aai7825
4. Li, Gang, et al. "Performance of Regression Models as a Function of Experiment Noise." Bioinform. Biol. Insig. 15 (2021): 11779322211020315. DOI: 10.1177/11779322211020315
5. Chen, Zhen, et al. "Ifeature: A Python Package and Web Server for Features Extraction and Selection from Protein and Peptide Sequences." Bioinformatics 34.14 (2018): 2499-502. DOI: 10.1093/bioinformatics/bty140
6. Alley, Ethan C., et al. "Unified Rational Protein Engineering with Sequence-Based Deep Representation Learning." Nat. Methods 16.12 (2019): 1315-22. DOI: 10.1038/s41592-019-0598-1
7. Jarzab, Anna, et al. "Meltome Atlas—Thermal Proteome Stability across the Tree of Life." Nat. Methods17.5 (2020): 495-503. DOI: 10.1038/s41592-020-0801-4

点击左下角的"阅读原文"即可查看原文章。


作者:郭家盛

审稿:黄志贤

编辑:卞薇洁


GoDesign

ID:Molecular_Design_Lab

( 扫描下方二维码可以订阅哦!)

本文为GoDesign原创编译,如需转载,请在公众号后台留言。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/148626
 
356 次点击