社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
速递|DeepSeek已在全球140个市场的应用商店排名第一,下载量接近ChatGPT同期2倍,印度...
DeepSeek是ChatGPT的套壳?
ChatGPT 4o 国内直接用!
每日 GitHub 探索|最新 GitHub 开源项目指南,赋能开发者
DeepSeek R1已在Gitee AI免费开冲——全尺寸碾压,小尺寸更有性价比!
意大利监管机构向DeepSeek寻求数据保护方面信息;阿里云通义千问旗舰版模型Qwen2.5-Max...
DeepSeek内部数据库泄露;ChatGPT仿DeepSeek升级推理交互;Claude全球服务宕...
在A股中,本金5万,一年翻倍,看deepseek,月之暗面,豆包和ChatGPT,谁给出的方案合你心...
《2035 年技术融合估计:量子互联网、人机接口、机器学习系统、隐形机器人、增材制造》美陆军232页
DeepSeek对ChatGPT有哪些技术突破? | 中国AI领跑全球的法律风险
关注
Py学习
»
机器学习算法
Mol Cell | 金文豪/Gene Yeo 开发RNA结合蛋白的深度学习模型—HydRA
BioArt
• 1 年前 • 327 次点击
责编 | 兮
RNA结合蛋白
(
RBP
)作为直接与RNA分子进行物理互作的蛋白类别,直接参与了RNA分子的整个生命周期的调控,也与许多人类疾病密切相关。基于紫外线交联
(UV cross-linking)
和免疫沉淀
(Immunoprecipitation)
或者相分离
( phase separation)
的高通量技术已经帮助我们发现了很多未知的RNA结合蛋白。 但是目前我们对RNA结合蛋白的认知依旧很局限。一方面,蛋白质和RNA分子的结合是个动态过程,而上述生物化学方法每次只能捕捉特定细胞系和细胞条件下的蛋白质和RNA的互作行为,以至于可能仍有很多具备结合RNA能力的蛋白质未被发现。此外,对于大约有一半以上已知的RNA结合蛋白,我们并不了解他们用于结合RNA分子的结构域及互作机理
(称作“非典型RNA结合蛋白”)
。
2023年7月7日,加州大学圣地亚哥分校
Gene W. Yeo
团队
(共同一作是
金文豪
,
Kristopher W. Brannan
和
Katannya Kapeli
)
在
Molecular Cell
上发表了文章
HydRA: Deep-learning models for predicting RNA-binding capacity from protein interaction association context and protein sequence
。作者
提出了一种基于蛋白质序列和蛋白质互作网络的集成机器学习模型
(HydRA)
,
来对RNA结合蛋白进行建模及预测。并通过模型解释技术对基于蛋白质序列的组件进行实例解读,用于发现新的与RNA结合相关的蛋白区域或者结构域。
具体而言,作者首先通过改进他们之前发表的SONAR模型对RNA结合蛋白的局部蛋白质互作网络
(local PPI network)
进行建模得到SONAR3.0 ,然后使用几种不同的语言模型建模方法(包括卷积神经网络,类Transformer框架及支持向量机)对RNA结合蛋白的序列进行建模,得到三个基于蛋白序列的模型:seqCNN, ProteinBERT-RBP和seqSVM 。作者通过基于错误发现率
(false discovery rate)
的概率集成方法将不同模型进行整合,从而得到HydRA。作者还尝试了利用图神经网络对RNA 结合蛋白的蛋白结构
(由AlphaFold2 (AF2) 预测得到)
进行建模。通过大量的节点特征筛选、边特征筛选和模型筛选,作者选取了两个最优图神经网络模型:(1)基于PointTransformer的strucGNN1, (2)基于大规模蛋白质结构预训练模型MIF的strucGNN-MIF。作者发现基于序列的模型在识别“典型RNA结合蛋白”(具有典型RNA结合结构域的RNA结合蛋白)上的表现强于其他两类模型,而基于蛋白结构的RNA结合蛋白模型比基于序列的模型能更好地预测“非典型RNA结合蛋白“。这些可能归因于典型RNA结合结构域往往具有更保守的序列同源性,所以更容易被基于序列的模型捕捉,而对于结构相似但序列不相似的结构域则能更好得被基于结构的模型捕捉。而令人惊讶的是,基于蛋白质互作网络的模型SONAR3.0在识别这两类RNA结合蛋白时,都表现出了不错的预测能力,尤其是非典型RNA结合蛋白。这归因于RNA结合蛋白在蛋白直接或间接互作方面的特殊性。在测试数据集上,HydRA表现出了优于其他已发表的RNA结合蛋白预测器,也优于各个组件
(seqSVM, seqCNN, ProteinBERT-RBP 以及 SONAR3.0)
。 进一步实验发现,将基于结构的模型strucGNN1和strucGNN-MIF加入集成模型HydRA, 并不能进一步提升模型的性能。
另一方面,作者借助模型解释技术,进一步阐述了模型可以很好得识别RNA结合结构域 ,并在没有蛋白质-RNA互作信息参与训练的情况下,在结构域层面的预测任务中表现优于有蛋白质-RNA互作信息参与训练的基准RNA结合氨基酸预测器。
在验证了HydRA模型对RBP建模的有效性之后,作者利用HydRA在人类蛋白质组中预测了1487候选RNA结合蛋白,并使用模型解释技术预测了76种可能参与RNA和蛋白质互作的蛋白结构域。作者选取了其中的部分蛋白,通过在HEK293细胞系中过表达候选蛋白基因,并采用紫外交联免疫沉淀的方法
(enhanced Cross-linking immunoprecipitation , eCLIP)
进行实验验证。作者验证了5个从未被报道能结合RNA的候选蛋白。与此同时,作者设计了切除预测的与RNA结合相关的结构域的候选蛋白基因,并在相同的细胞系中过表达这些基因和进行eCLIP实验。通过比较切除结构域的蛋白和原蛋白在结合RNA分子的能力上的变化,作者验证了5个新的参与RNA-蛋白质互作的结构域。
除了验证新的RNA结合蛋白,对一些高分HydRA预测但已经出现在先前的高通量研究中的蛋白
(尚未被进一步验证)
,作者也通过eCLIP技术进行验证和新知识的发现。比如,热激蛋白HSP90AA1,一种分子伴侣,通过, 作者通过eCLIP确定了被它结合的RNA分子,并发现这些靶标RNA分子集中于HSP90AA1蛋白折叠通路上的其他蛋白。由此,作者推测HSP90AA1可能通过调控蛋白折叠通路上的其他蛋白来确保蛋白折叠功能的正常实现。另外,作者还验证了14-3-3蛋白家族也能够结合RNA分子,这个蛋白家族之前因能和多种蛋白互作参与多种细胞过程而被人们熟知。
综上,
这篇文章通过机器学习和深度学习对RNA结合蛋白进行准确的建模,来用于发现新的RNA结合蛋白以及与RNA结合相关的蛋白质结构域,并通过实验验证确定了部分新RNA结合蛋白,扩展了RNA结合蛋白数据库。基于数据驱动的知识发现方法,本文的成果为研究蛋白质-RNA结合机理提供了新的线索和思路,也为大家提供了快速查询蛋白质结合和参与RNA分子调控可能性的途径。
原文链接:
https://www.cell.com/molecular-cell/fulltext/S1097-2765(23)00466-5
转载须知
【非原创文章】本文著作权归文章作者所有,欢迎个人转发分享,未经作者的允许禁止转载,作者拥有所有法定权利,违者必究。
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/157253
327 次点击
登录后回复