社区
教程
Wiki
注册
登录
创作新主题
社区所有版块导航
Python
python开源
Django
Python
DjangoApp
pycharm
DATA
docker
Elasticsearch
分享
问与答
闲聊
招聘
翻译
创业
分享发现
分享创造
求职
区块链
支付之战
aigc
aigc
chatgpt
WEB开发
linux
MongoDB
Redis
DATABASE
NGINX
其他Web框架
web工具
zookeeper
tornado
NoSql
Bootstrap
js
peewee
Git
bottle
IE
MQ
Jquery
机器学习
机器学习算法
Python88.com
反馈
公告
社区推广
产品
短视频
印度
印度
一周十大热门主题
两分钟复现整个Nature正刊深度学习项目,用于地学预测!
2025必看AI干货!《大模型/AIGC/GPT-4/Transformer/DL/KG/NLP/C...
深度学习的第三波海啸:辛顿、杨立昆和本吉奥
ComfyUI:搭积木一样构建专属于自己的AIGC工作流(保姆级教程)
大A还能涨多久?3个神秘量化指标,教你判断大盘走势 | Python量化市场择时指标,市场怎么走,指...
世界首例!天才少年连发3篇视觉顶刊!深度学习与光学成像杀疯了
转:国海·AIGC隔日重要新闻·产业趋势洞察| 2025.3.3-20250303234634
谁最懂数据治理?DeepSeek、ChatGPT,Grok3等十大顶级大模型深度PK,第一名出乎意料...
Digital Economy and Data Protection Newsletter(25....
讲真,学Python真的不用吃低级的苦…
关注
Py学习
»
机器学习算法
Nat Mach Intell|北京大学田永鸿、陈杰团队:用于病毒变异驱动预测的统一进化驱动深度学习框架
智药邦
• 4 周前 • 28 次点击
北京大学
信息工程学院田永鸿、陈杰团队一直致力于推动AI for Science的发展,前期工作曾入围2022年度戈登贝尔特别奖,与美国阿贡国家实验室、橡树岭国家实验室团队在世界舞台上角逐这一超级计算机领域的国际最高奖项,团队于众多世界级顶尖强队中脱颖而出名列前茅,展现出中国人工智能在计算集群和科研创新领域的全球顶尖水平。
2025年1月17日,
田永鸿、陈杰
团队联
合广州国家实验室周鹏研究员,在Nature Machine Intelligence上发表文章A unified evolution-driven deep learning framework for virus variation driver prediction,再次展现AI助力自然科学研究范式革新的巨大潜力。
研究亮点:
1,探讨了如何定制化蛋白质语言模型以适配进化预测任务,提出了定制化预训练策略和数据集,为蛋白质语言模型预训练与下游任务之间的权衡提供了研究新视角;
2,从进化论角度凝练了病毒进化的两大本质问题,从而通过“微弱突变放大”和“稀少有益突变挖掘”两个创新设计实现了跨病毒类型和跨毒株类型的通用预测,涵盖新冠、流感、寨卡和艾滋病病毒,实现了Science和AI架构的高度融合;
3,突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘motif模式)以及提出的多任务焦点损失函数适用于蛋白质通用体系,具有进一步拓展用于各类蛋白质功能预测及蛋白质定向进化的可能;
4,实现了不同尺度的病毒进化预测,未来可与疫苗和蛋白类药物设计流程相结合,有望提升设计效率和设计可控度。
在自然界,物种多样性与生物体内承载功能的蛋白质相互约束,这是因为蛋白质作为功能的载体决定了生物的性状,而这些性状经过选择压力筛选后形成了当下的物种多样性分布结果。立足达尔文进化论及表观遗传学持续新研究的角度,生物演化与环境组成了复杂系统,是与环境的协同演化。受此启发,研究团队基于进化论视角重新审视病毒进化预测难题,提出了解决病毒进化两大本质问题的跨病毒类型、跨毒株类型的通用进化预测模型,为疫苗、药物的快速主动更新以及提高人类对于新发病毒感染的响应速度提供了强大工具,支撑和加速对于物种复杂进化机制的探索。
突变是病毒进化的基石,不同病毒的具体进化历程各有其独特性,但是其共性在于最终的进化结果中几乎都是有害突变占据大多数。从整个进展尺度来看,即使有害突变与有益突变的比例会随物种和环境不同而有所区别,但是有害突变被认为总是远多于有益突变,即有益突变是病毒蛋白进化适应度空间中的极小子集。很自然地,有害突变的高发性使得同一个变异株内难以共存较多的突变,即一个变异株所具有的突变数量与原始型相比往往较少,仅有少数位点会发生突变。因此,
团队将上述病毒进化轨迹凝练为病毒进化的两大本质特点:“少数位点突变”(Few-site mutations)和“稀少有益突变”(Rare beneficial mutations)。
以上两大进化特点导致了明显的建模难题:“少数位点突变”引起的分子内相互作用网络的变化相对比较微弱,使得神经网络对其直接捕获极其困难,而“稀少有益突变”在数据层面造成了严重的正负样本不平衡问题,这导致精准预测对进化至关重要的稀少有益突变成为巨大挑战。
为此,
研究团队提出了进化驱动的病毒变异驱动力预测框架E2VD
(图1),
通过“微弱突变放大”和“稀少有益突变挖掘”两个创新设计实现了跨病毒类型和跨毒株类型的统一预测。
通过面向进化场景的定制化蛋白质大语言模型(国产E级智算平台“鹏城云脑II”256张NPU支撑训练)、突变所处相互作用网络的全面重建模块(包含动态粒度注意力机制以挖掘motif模式)以及提出的多任务焦点损失函数,E2VD在几类关键病毒进化驱动力预测任务上实现了最佳性能,显著且全面超越其他方法(性能提升在7%-21%不等),实验证明了
该预测框架对于病毒进化模式的精准捕获,将稀少有益突变的预测精度从13%大幅提升至80%,实现了跨越式精度提升
。其可用于灵活定制化组合以预测不同尺度的进化趋势,不仅实现了大流行内部进化轨迹的解释和潜在高风险突变的精准预测,而且实现了对于大流行尺度的宏观进化轨迹预测,重现了病毒在真实世界中的进化路线,为病毒进化机制的解读提供理论性支撑。
图1:E2VD模型架构
此外,
E2VD在跨越病毒类型和毒株类型时展现出强大的泛化能力
(图2)。研究团队提出鲁棒且避免实验批次效应影响的突变所致病毒适应度变化评估指标,并以此评估了模型在同病毒类型的不同毒株之间以及不同病毒类型之间的泛化表现,E2VD在新冠病毒、寨卡病毒、流感病毒以及艾滋病病毒上展现出理想的泛化能力,始终超越其他方法,未来可进一步拓展至更多传染性病毒,与疫苗和蛋白类药物设计流程相结合,有望提升设计效率和设计可控度。
图2:跨病毒类型和跨毒株的泛化性能
北京大学信息工程学院博士生聂志伟、硕士生刘旭东为该工作的共同第一作者,田永鸿教授和陈杰副教授为共同通讯作者。
入围戈登贝尔特别奖新闻链接:
https://news.pku.edu.cn/jxky/90d276ae5f8441849fd04372fd872154.htm
论文链接:
https://www.nature.com/articles/s42256-024-00966-9
本文转自【
北京大学深圳研究生院
】公众号
--------- End ---------
感兴趣的读者,可以添加小邦微信加入
读者实名讨论微信群
。添加时请主动注明
姓名-企业-职位/岗位
或
姓名-学校-职务/研究方向
。
Python社区是高质量的Python/Django开发社区
本文地址:
http://www.python88.com/topic/178919
28 次点击
登录后回复