社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

Mol Cell | 金文豪/Gene Yeo 开发RNA结合蛋白的深度学习模型—HydRA

BioArt • 1 年前 • 327 次点击  
责编 | 兮

RNA结合蛋白RBP)作为直接与RNA分子进行物理互作的蛋白类别,直接参与了RNA分子的整个生命周期的调控,也与许多人类疾病密切相关。基于紫外线交联 (UV cross-linking)和免疫沉淀 (Immunoprecipitation)或者相分离 ( phase separation) 的高通量技术已经帮助我们发现了很多未知的RNA结合蛋白。 但是目前我们对RNA结合蛋白的认知依旧很局限。一方面,蛋白质和RNA分子的结合是个动态过程,而上述生物化学方法每次只能捕捉特定细胞系和细胞条件下的蛋白质和RNA的互作行为,以至于可能仍有很多具备结合RNA能力的蛋白质未被发现。此外,对于大约有一半以上已知的RNA结合蛋白,我们并不了解他们用于结合RNA分子的结构域及互作机理(称作“非典型RNA结合蛋白”)


2023年7月7日,加州大学圣地亚哥分校 Gene W. Yeo团队(共同一作是金文豪Kristopher W. BrannanKatannya KapeliMolecular Cell上发表了文章HydRA: Deep-learning models for predicting RNA-binding capacity from protein interaction association context and protein sequence。作者提出了一种基于蛋白质序列和蛋白质互作网络的集成机器学习模型(HydRA)来对RNA结合蛋白进行建模及预测。并通过模型解释技术对基于蛋白质序列的组件进行实例解读,用于发现新的与RNA结合相关的蛋白区域或者结构域。



具体而言,作者首先通过改进他们之前发表的SONAR模型对RNA结合蛋白的局部蛋白质互作网络(local PPI network)进行建模得到SONAR3.0 ,然后使用几种不同的语言模型建模方法(包括卷积神经网络,类Transformer框架及支持向量机)对RNA结合蛋白的序列进行建模,得到三个基于蛋白序列的模型:seqCNN, ProteinBERT-RBP和seqSVM 。作者通过基于错误发现率(false discovery rate)的概率集成方法将不同模型进行整合,从而得到HydRA。作者还尝试了利用图神经网络对RNA 结合蛋白的蛋白结构(由AlphaFold2 (AF2) 预测得到)进行建模。通过大量的节点特征筛选、边特征筛选和模型筛选,作者选取了两个最优图神经网络模型:(1)基于PointTransformer的strucGNN1, (2)基于大规模蛋白质结构预训练模型MIF的strucGNN-MIF。作者发现基于序列的模型在识别“典型RNA结合蛋白”(具有典型RNA结合结构域的RNA结合蛋白)上的表现强于其他两类模型,而基于蛋白结构的RNA结合蛋白模型比基于序列的模型能更好地预测“非典型RNA结合蛋白“。这些可能归因于典型RNA结合结构域往往具有更保守的序列同源性,所以更容易被基于序列的模型捕捉,而对于结构相似但序列不相似的结构域则能更好得被基于结构的模型捕捉。而令人惊讶的是,基于蛋白质互作网络的模型SONAR3.0在识别这两类RNA结合蛋白时,都表现出了不错的预测能力,尤其是非典型RNA结合蛋白。这归因于RNA结合蛋白在蛋白直接或间接互作方面的特殊性。在测试数据集上,HydRA表现出了优于其他已发表的RNA结合蛋白预测器,也优于各个组件(seqSVM, seqCNN, ProteinBERT-RBP 以及 SONAR3.0)。 进一步实验发现,将基于结构的模型strucGNN1和strucGNN-MIF加入集成模型HydRA, 并不能进一步提升模型的性能。


另一方面,作者借助模型解释技术,进一步阐述了模型可以很好得识别RNA结合结构域 ,并在没有蛋白质-RNA互作信息参与训练的情况下,在结构域层面的预测任务中表现优于有蛋白质-RNA互作信息参与训练的基准RNA结合氨基酸预测器。

在验证了HydRA模型对RBP建模的有效性之后,作者利用HydRA在人类蛋白质组中预测了1487候选RNA结合蛋白,并使用模型解释技术预测了76种可能参与RNA和蛋白质互作的蛋白结构域。作者选取了其中的部分蛋白,通过在HEK293细胞系中过表达候选蛋白基因,并采用紫外交联免疫沉淀的方法(enhanced Cross-linking immunoprecipitation , eCLIP)进行实验验证。作者验证了5个从未被报道能结合RNA的候选蛋白。与此同时,作者设计了切除预测的与RNA结合相关的结构域的候选蛋白基因,并在相同的细胞系中过表达这些基因和进行eCLIP实验。通过比较切除结构域的蛋白和原蛋白在结合RNA分子的能力上的变化,作者验证了5个新的参与RNA-蛋白质互作的结构域。


除了验证新的RNA结合蛋白,对一些高分HydRA预测但已经出现在先前的高通量研究中的蛋白(尚未被进一步验证),作者也通过eCLIP技术进行验证和新知识的发现。比如,热激蛋白HSP90AA1,一种分子伴侣,通过, 作者通过eCLIP确定了被它结合的RNA分子,并发现这些靶标RNA分子集中于HSP90AA1蛋白折叠通路上的其他蛋白。由此,作者推测HSP90AA1可能通过调控蛋白折叠通路上的其他蛋白来确保蛋白折叠功能的正常实现。另外,作者还验证了14-3-3蛋白家族也能够结合RNA分子,这个蛋白家族之前因能和多种蛋白互作参与多种细胞过程而被人们熟知。


综上,这篇文章通过机器学习和深度学习对RNA结合蛋白进行准确的建模,来用于发现新的RNA结合蛋白以及与RNA结合相关的蛋白质结构域,并通过实验验证确定了部分新RNA结合蛋白,扩展了RNA结合蛋白数据库。基于数据驱动的知识发现方法,本文的成果为研究蛋白质-RNA结合机理提供了新的线索和思路,也为大家提供了快速查询蛋白质结合和参与RNA分子调控可能性的途径。


原文链接:

https://www.cell.com/molecular-cell/fulltext/S1097-2765(23)00466-5



转载须知

【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/157253
 
327 次点击