社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

厦门大学程俊课题组Nat. Comput. Sci.:建立基于深度学习的核磁化学位移预测的统一基准和框架

研之成理 • 5 天前 • 71 次点击  

▲第一作者:徐凡杰

通讯作者:汤富杰、高志锋、程俊

通讯单位:厦门大学

论文DOI10.1038/s43588-025-00783-z(点击文末「阅读原文」,直达链接)




背景介绍

核磁共振(NMR)技术作为分子结构和动力学研究的重要工具,广泛应用于化学、生物学和材料科学领域。NMR的化学位移是反映分子局部环境和原子间相互作用的重要参数,因此准确预测化学位移对于NMR谱图的解析、分子结构的修正以及构型的确定至关重要。然而,传统的化学位移预测方法在处理复杂分子结构时,往往面临准确性与效率之间的矛盾,尤其在分子具有复杂拓扑结构或在液态、固态等不同状态下时,传统模型难以全面考虑所有因素,导致预测精度不足。



本文亮点

目前现有的模型多针对液态或固态NMR进行单一状态的预测,往往未对其通用性进行充分验证,仍存在局限性。此研究中,厦门大学、嘉庚创新实验室AI4EC Lab、北京科学智能研究院与深势科技联合研发了NMRNet框架。通过预训练和微调范式,结合对分子表示学习框架Uni-MolSE(3) Transformer架构的适应性调整,成功实现了对液态、固态和气态系统的统一建模。




图文解析

NMRNet的框架如图1所示,该研究在数据准备阶段收集了结构数据和核磁数据,提取3D结构信息并将其转化为模型输入。研究团队进一步通过对实验数据的广泛清理和验证,构建了一个标准化的基准数据集nmrshiftdb2-2024,为推动NMR化学位移预测的研究提供了宝贵的资源。在预训练阶段,对于液体核磁部分,研究团队沿用了 Uni-Mol之前的预训练权重。而对于固体核磁部分,研究团队又利用超过480万个晶体结构数据进行自监督学习,从而获得高效的原子环境表示,有效缓解了标注数据稀缺的问题。在微调阶段,NMRNet通过利用不同状态的数据进行核磁预测任务的训练,并且能够支持单元素预测和多元素同时预测。在多个基准数据集中,NMRNet的预测结果在多个评价指标上均取得优异表现,充分验证了模型的高精度和可靠性。此外,NMRNet不仅提供数值预测,还可应用于NMR谱峰归属和构象确定等关键任务,为结构-光谱关系的深入解析提供了新途径。

1: NMRNet框架示意图。左侧:数据准备模块,提供结构和NMR数据;右侧上方:预训练模块,利用结构信息进行自监督学习;右侧中部:微调模块,进行有监督的NMR化学位移预测;右侧下方:推理模块,将模型应用于多种实际任务。


为进一步验证NMRNet的性能,研究团队进一步将其应用于更复杂的分子体系,以测试其泛化能力和鲁棒性。研究团队从nmrshiftdb2-2024数据集中筛选了原子数超过70的分子作为测试集,这些分子的复杂度显著高于此前使用的nmrshiftdb2-2018数据集(最大原子数为64)。实验结果显示,随着分子原子数的增加,NMRNet的预测误差并未出现显著变化(如图2a)。当测试集为所有原子数超过70的分子时,预测结果与实验值的相关性尽管与nmrshiftdb2-2018 测试集相比精度略有下降,但预测结果与实验值仍呈现高度相关性,表明模型几乎不存在过拟合现象。研究团队还测试了原子数超过100的分子,预测精度没有进一步降低。这一结果再次验证了NMRNet在复杂分子体系中的卓越性能。为全面评估NMRNet的性能极限,研究团队从数据集中提取了两个原子数超过150的超复杂分子(如图2b),并预测了它们的1H13C NMR谱(如图2c)。尽管这些分子结构极为复杂,NMRNet的预测结果依然保持高精度,展现了其在极端情况下的强大鲁棒性。


2: NMRNet泛化能力的评估。(a)来自nmrshiftdb2-2018(分子中原子数≤64)的测试集和来自nmrshiftdb2-2024(分子中原子数≥70)的额外测试集的预测误差,按分子中原子数分组。(b)展示NMRNet性能的两个分子。(c)比较(b)中两个分子的预测化学位移(红色)与实验化学位移(蓝色):上方图显示1H NMR ,下方图显示13C NMR


此外,研究团队展示了NMRNet在表征复杂材料局部环境中的强大能力。图3a-b展示了研究团队对P2Na/(Mg/Mn/)O中所有Na的局部结构和化学位移关系的分析结果。研究团队发现,经过预训练的NMRNet能够初步区分不同化学位移的结构表示,而微调后的模型在区分能力上显著提升,进一步证明了微调后的NMRNet在精准表征局部环境方面的有效性。图3c可以看到,研究团队还利用Transformer模型的64头注意力机制,深入探索了Na与其局部环境中其他原子之间的相互作用。通过可视化原子交互,发现NaMn⁴⁺ 离子之间的强烈相互作用对材料的电势和电子环境起到了重要影响,这为理解材料的电子结构提供了新的视角。该研究为无先验化学知识的原子级相互作用分析提供了新的工具,有助于更好地解读NMR谱图,并推动材料科学中结构与性质关系的进一步研究。


3: NMRNet的结构表示。(a)预训练的NMRNet和(b)微调后的NMRNet使用t-SNE方法展示P2Na2/3(Mg1/3Mn2/3)O2中所有Na+的局部结构表示及其与化学位移的关系。(c)从Transformer64头注意力机制结果中提取每个中心原子(表示为Na1)与其局部环境(Na13Mg8Mn16O39)之间的相互作用信息,每个头的结果表示为单独的一行,这些结果随后被拼接在一起。相同元素根据它们与中心原子的距离按升序排列。可视化中颜色越深表示中心原子与其局部环境之间的相关性越强。(dNa2/3(Mg 1/3Mn2/3)O2的一个单位晶胞。(e)从(d)中对应单位晶胞的无限晶体结构中提取的Na的局部环境。


为了帮助研究人员快速对论文所提出的方法进行测试和验证,NMRNet 团队将相关成果以开源代码和在线应用的形式进行发布。研究人员可以通过以下网址访问该应用:https://ai4ec.ac.cn/apps/nmrnet 


NMRNet 在线应用依托于嘉庚智算中心提供的算力支持,允许用户以网页的形式提交结构并快速得到预测结果,预测结果以可视化图表的形式进行呈现,并允许用户下载相关的预测和结构数据进行进一步分析。


同时,NMRNet 相关代码也已集成到 ai2-kit 工具包中。ai2-kit 是由程俊教授课题组和AI4EC Lab所开发和维护的开源计算化学工具包,旨在帮助研究人员将人工智能加速从头算研究范式快速应用到相关课题中。研究人员可以根据以下文档在个人电脑或者高性能计算集群上安装和配置 ai2-kit  NMRNet 进行测试和验证:

https://github.com/chenggroup/ai2-kit/blob/main/doc/manual/nmrnet.md




总结与展望

NMRNet的推出为核磁共振光谱解析提供了全新的解决方案,其通用性和高精度预测能力将助力科研人员在分子结构阐明和材料设计领域取得更多突破。随着技术的不断完善,NMRNet有望成为化学和材料科学研究中的重要工具。


研究团队将在未来对NMRNet不断进行迭代升级,进一步优化模型的泛化能力,以应对更复杂的化学环境。诚邀各位学者和研究人员试用并提出宝贵意见,共同推动NMR光谱解析技术的发展。




研理云服务器

业务介绍

研理云,研之成理旗下专门针对科学计算领域的高性能计算解决方案提供者。我们提供服务器硬件销售与集群系统搭建与维护服务。

   ● 配置多样(单台塔式、两台塔式、多台机架式),按需定制,质量可靠,性价比高。

 ● 目前已经为全国 100 多个课题组提供过服务器软硬件服务(可提供相同高校或临近高校往期案例咨询)。
 ● 公司服务器应用工程师具有量子化学第一性原理分子动力学等相关学科研究背景。
 ● 公司与多位化学、材料领域理论计算方向专家长期合作 ,一起探索最优服务器软硬件配置和部署。
 ● 可参与招投标。
产品特色
  ● 定制化硬件配置:提供售前实例测试,为您提供最合适的硬件配置方案。
  ● 一体化软件服务:根据需求发货前,完成系统、环境、队列、计算软件等所有内容的安装与配置,让您实现开机即用
  ● 完善的售后服务:为每位客户建立专属服务群,遇到问题及时解决。大大降低使用学生使用门槛和缓解老师压力。三年硬件质保 + 三年免费软件技术支持。
  ● 已购买客户咨询:我们已有超过100位已购买客户,可以给您提供相同城市或者临近城市已购买客户的联系方式,以提供真实案例咨询  
 ● 赠送课程学习机会:可选课程包括量子化学(Gaussian),第一性原理,(Vasp),分子动力学模拟(Lammps、Grommacs),钙钛矿计算模拟(Vasp)等。具体赠送方案以沟通结果为准。



扫码添加客服微信

1. 仪器表征基础知识汇总
2. SCI论文写作专题汇总
3. Origin/3D绘图等科学可视化汇总
4. 理论化学基础知识汇总
5. 催化板块汇总
6. 电化学-电池相关内容汇总贴
7. 研之成理名师志汇总
更多科研作图、软件使用、表征分析、SCI 写作、名师介绍等干货知识请进入后台自主查询。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/180820
 
71 次点击