今天为大家介绍的是来自多伦多大学的Alán Aspuru-Guzik团队的一篇论文。计算化学是理解分子和预测化学性质的重要工具。然而,由于求解薛定谔方程的困难以及随着分子系统规模增加而带来的计算成本的增加,传统的计算方法面临着重大挑战。为此,利用人工智能(AI)和机器学习(ML)技术进行计算实验引起了极大的兴趣。将AI和ML引入计算化学可以提高化学空间探索的可扩展性和速度。然而,在ML模型的可重复性和可转移性方面挑战依然存在。这篇综述强调了ML在学习、补充或替代传统计算化学以进行能量和性质预测方面的演变。从完全基于数值数据训练的模型开始,向着包含或学习量子力学物理规律的理想模型迈进。本文还回顾了现有的计算方法和ML模型及其相互结合,概述了未来研究的路线图,并确定了改进和创新的领域。最终目标是开发能够预测薛定谔方程准确且可转移解的AI架构,从而彻底变革化学和材料科学中的计算实验。
如今,计算实验在化学科学中至关重要。自这一学科诞生以来,理论和计算化学一直致力于再现实验室实验,或在原子、核和电子层面提供额外和独特的见解。在材料设计、药物发现、催化、光谱或反应机制等领域,通过在计算机上进行实验的可能性已经彻底改变了这些领域的发展,经常能够回答湿实验室无法解决的问题,或根据计算预测的结果规划和设计实验。
量子力学(QM)的法则是计算实验的基础。量子化学(QC)的优势在于它能够找到薛定谔方程(SE)的近似解,这是描述分子和材料等量子力学系统的基本关系。通过这些解可以计算化学性质,如解离能和反应速率,或预测实验光谱和能带图。
然而,当需要进行不止一次单点计算的现象时,准确性和可扩展性问题会变得非常严重。核和电子自由度数量的爆炸性增长限制了对分子系统时间演化的描述,例如电子激发态的动力学,或在长时间尺度上发生的化学现象,如荧光材料中的光发射。在这些情况下,求解所需的时间依赖SE需要在连续几何形状上进行昂贵的电子结构计算。这些问题需要真正的科学或算法革命。此外,传统量子计算所需的计算费用使得探索所谓的化学空间变得不可行。这种情况是一个问题,因为筛选大量分子的性质,无论是实验存在的还是理论上提出的,已成为材料发现的一个有吸引力的策略。
考虑到这些限制,计算化学成为科学计算中人工智能(AI)应用热潮的一部分并不令人惊讶。机器学习已经被证明能够在完全或部分回答以前无法接近的问题,因此数据驱动的计算实验数量急剧增加。ML在化学中的普及表明,其对实验模拟的影响类似于Hartree-Fock、DFT和混合量子力学/分子力学方案的革命性发展。
在本文中,作者质疑ML是否应该取代或补充QC。更具体地说,在这项工作中,作者关注AI学习量子力学基础物理和数学规律的能力,这一方向的先前努力和面临的挑战。因此,作者希望给出一条整合量子力学基础与ML便利性的路径。实际上,在作者看来,结合物理学和计算机科学的前景将彻底改变化学科学中计算实验的应用范围。然而,虽然学习和理解量子力学是人类智能可以明确完成的任务,每个化学、物理及相关领域的本科生都要面对,但对于人工智能来说却要困难得多。我们必须问:如何将物理学与ML结合起来开发可用于预测分子和材料化学性质的方法?
在深入探讨最新研究进展的细节之前,作者将提供一些必要的理论背景,以构建开发能够预测精确薛定谔方程(SE)解的机器学习模型的路径。
Hartree-Fock和Post-Hartree-Fock方法
解决电子薛定谔方程(SE)的目标是基于玻恩-奥本海默近似,该近似将电子和核的自由度分开,允许分别求解电子和核部分的SE。这对于计算许多感兴趣的物理化学性质非常有用。因此,找到电子SE的准确解对于生成正确的计算化学实验结果至关重要。尽管著名的Hartree-Fock(HF)方法的误差仅占总能量的一小部分(<1%),但它正好与大多数化学现象发生的能量量级相匹配,从而限制了该方法在化学应用中的有效性。因此,理论化学家开发了一系列后Hartree-Fock(post-HF)方法,旨在考虑对化学至关重要的精细能量贡献,这些贡献被称为“电子相关”,是相对于HF能量的降低。一般而言,post-HF模型可以通过不同的方法、近似和准确性水平来解决恢复电子相关性的问题。
DFT在化学和材料科学中具有前所未有的影响,因其在准确性和计算成本之间实现了最佳平衡,成为传统湿实验室实验的替代或补充方法。DFT的基本概念简单而革命性:系统的基态能量和任何可观测量都是电子密度的函数。这基于Hohenberg-Kohn定理,证明了基态电子密度与外部势之间存在一一映射关系,从而确定基态能量。这一框架使得可以依赖实验可观测量(电子密度)而不是波函数,将3N维问题简化为3D问题。
然而,运行DFT在处理大规模分子集合的虚拟筛选、探索大而灵活分子的构象空间或需要成千上万步的分子动力学(MD)模拟时仍然过于昂贵。在这方面,DFT数据集的日益增多以及各种ML算法(如深度学习和主动学习)的进步,使得训练ML模型以辅助DFT研究成为可能。在这一领域,出现了三种主要策略:i)直接ML预测DFT性质,ii)ML辅助识别具有物理意义的描述符以进行下游性质预测,以及iii)ML促进DFT固有准确性的改进。这一领域的广泛性和应用的多样性使其成为将ML技术应用于理论化学方法的最热门话题之一。
利用经验数据对一些模型进行参数化,以减少评估电子排斥积分的计算负担,是提高计算扩展性的一种成功策略,可以扩大系统规模或探索多种配置。然而,这些计算的准确性非常低,很难可靠地获得化学信息。一个更加极端的方法是完全放弃对分子的任何量子处理,转而使用参数化的经典势来定义分子受力场并计算电子能量。这种方法虽然牺牲了准确性,但能够实现大规模模拟。
在AI时代,从SE的精确解(适用于最小系统)到高度参数化的势(用于模拟大规模和扩展系统)转变,允许生成和收集数据,从而将计算实验转变为数据驱动的问题。
量子力学方法的局限性为通过数据驱动方法和人工智能寻找新数字解决方案提供了广阔空间。在本综述中,作者不仅关注化学中机器学习模型在架构上的差异,更关注它们在包含物理信息方面的概念化,以及它们如何与传统方法协同工作(见图1)。作者将从基于高通量筛选方法生成的大型数据集训练的数据驱动模型开始,这些模型仅学习数值结果而不涉及其背后的数学形式。然后,物理信息是如何逐步被纳入,以产生更具普适性和可转移性的模型。从通过学习更准确方法的差异来修正近似结果开始,随后将转向绘制分子的势能面。机器学习在学习量子化学方面的性能已经被广泛测试,用于再现半经验方法或开发DFT中的新的交换-相关泛函。这一框架桥接了机器学习和薛定谔方程的数值解,见证一些旨在预测数学元素的尝试。在讨论更高级的、纯粹基于物理的模型以学习薛定谔方程及其解的努力之前,作者将以对最终完全数据驱动的计算实验进行全面、准确的化学性质再现的视角总结。
传统的ML模型包括随机森林、提升树方法、支持向量机、核岭回归和高斯过程。然而,数据质量会强烈影响模型的预测能力。随着计算能力和数据存储能力的不断进步,深度学习(DL)技术变得更加适用,特别是用于处理更复杂的问题,如自然语言处理、图像识别和应用科学。DL是ML的一个子集,涉及设计神经网络(NN),一种受生物神经连接结构和功能启发的计算模型。它们由相互连接的人工神经元组组成,通常分层组织,每层的节点通过加权边连接到下一层的节点。为了增加模型的表达能力,通过对隐藏层输出应用激活函数引入非线性。研究表明,当提供正确的架构和参数时,NN是连续函数的通用逼近器,使其非常适合捕捉复杂的统计模式。常见的架构包括标准前馈神经网络、卷积神经网络(CNN)、递归神经网络(RNN)和图神经网络(GNN)。
与传统ML方法相比,DL模型通常具有更高的参数数量,允许更大的表达能力。例如,OpenAI在2020年开发的大型语言模型GPT-3具有1750亿个参数——这通常需要大量的数据来正确训练模型,并避免过拟合。迄今为止,最流行的神经网络训练算法是梯度下降,通过反向传播算法实现廉价的梯度计算。虽然在DL模型的训练和推理中,随着模型和数据集规模以及数据维度的增加,计算成本会变得昂贵,但其计算成本仍远低于高质量量子力学计算或实际实验。
高质量的训练数据是所有稳健的机器学习模型的基础。为了避免在学习过程中引入伪影,确保训练集中的分子和材料属性在可比的实验条件下收集是至关重要的。此外,先进的ML架构(如神经网络和深度学习)被广泛认为是数据密集型的,它们的性能通常随着训练数据的规模和多样性的增加而提高。在这方面,计算化学促进了大量数据的一致和可重复生成,密度泛函理论(DFT)成为事实上的方法。这一点通过近年来多个大型DFT数据库的发布得到了体现,包括开放量子材料数据库(OQMD)、材料项目、自动材料发现库(AFLOWLIB)、联合自动化各种综合模拟库(JARVIS)、新材料发现(NoMaD)以及QM7、QM8和QM9数据集。除了DFT数据库,还可以通过分子动力学(MD)模拟的连续快照或将量子力学(QM)计算与同一分子的实验结果配对来创建数据集。
尽管DFT的计算需求相对较低,但对于高度复杂的系统或涉及网格搜索问题的场景,其计算成本仍然可能过高,从而阻碍了大规模计算数据集的生成。为了解决这一瓶颈,开发了多种机器学习模型来直接预测分子性质。这些ML模型通常基于选定的DFT数据集进行训练,旨在快速估算与相同化学空间相近的其他化合物的理论性质,从而避免覆盖整个化学空间所需的大量计算资源。这些ML模型已被用于预测带隙、形成能、磁矩、晶体性质、结合能、HOMO-LUMO间隙、活化能垒和动力学常数等。最近,使用分子结构和组成作为输入的深度学习模型,如CGCNN、iCGCNN、DimeNet、ALIGNN、MEGNet和GAME-Net,已成为材料性质预测的有效工具。这些模型尽管有效,但作为黑箱方法,缺乏对其建模的物理性质的洞见,且仍需大量DFT计算进行训练。
使用化学描述符作为输入可以增强机器学习模型的可解释性,通过阐明关键物理性质改善对模型的理解。它们也是资源密集型DFT模拟的经济替代品。历史上的例子包括Benson的基团加成性、Brønsted催化方程、Hammett方程和Bell-Evans-Polanyi原理。尽管潜力巨大,科学家们通常需要依赖广泛的DFT模拟来阐明这些分子描述符。针对这一背景,ML模型成为识别化学系统中描述符的有力工具,特别是t-SNE和主成分分析等无监督学习技术(见图2)。这些ML识别的描述符用于预测各种材料性质,包括HOMO-LUMO间隙、火山图、反应性、过渡金属配合物的电子性质、晶体材料性质、相图、锂离子电池的氧化还原电位和热力学稳定性等。
虽然ML预测DFT性质和识别关键分子描述符的进展促进了更高效的筛选和优化,但大多数大型计算数据库仍使用计算资源较少的DFT方法。然而,这些DFT方法往往低估了各种电子性质,引入了与实际实验测量不一致的误差。ML被用来改善现有模型之间的校正,以提高目标ML预测性质的准确性,使其更接近实验真实值。
“Δ-ML”框架通过学习更精确和更便宜理论水平之间的差异,快速准确地预测误差,从而在低成本的量子化学计算中获得更高准确性。这一方法已应用于多种情况,例如通过学习DFT与耦合簇(CC)能量之间的误差来捕捉分子动力学。
分子系统计算机模拟的关键步骤是确定给定原子构型的势能和力,这些量允许系统的时间演化模拟。然而,随着系统规模增加,使用第一性原理方法计算这些量变得昂贵。参数化解析势能提供了一种解决方案,通过预定的原子位置与势能之间的函数关系生成多维势能面(PES),便于评估并支持长期模拟。然而,模拟的预测能力取决于PES的质量,构建高质量PES具有挑战性。理想的PES模型应准确、高效且具有普适性,并能描述化学反应。随着计算能力提升、从头算数据增多及ML方法进展,机器学习势能(MLPs)成为传统计算方法的有前途替代方案(见图3a)。MLPs是根据电子结构计算的参考能量或力数据拟合的高度灵活函数,并随着训练数据的准确性和规模提升而改进。作者已经提出了几种策略,将在下面的讨论中详细讨论这些策略(见图3b)。
从量子力学计算中提取势能面(PES)以高效执行分子动力学(MD)模拟是机器学习在化学中的最早应用之一。1990年代,Ercolessi和Adam通过结合大型数据集与复杂解析形式展示了MLPs的潜力。Blank等人随后提出了使用通用神经网络的MLP方法。最初,这些MLPs适用于低维系统,如气相小分子或与静态金属表面相互作用的小分子使用全局描述符而非原子中心表示。然而,这些方法在耦合原子间相互作用时面临挑战,限制了系统的规模。
在2007年创建第一个势能十年后,Behler和Parinello通过引入高维神经网络势能(HDNNPs)解决了规模问题。这一突破通过将总能量表示为环境依赖的原子能量贡献之和实现,使得对数万个原子系统的纳秒级模拟成为可能。HDNNPs利用原子中心对称函数(ACSF)描述原子环境,满足旋转、平移和置换不变性要求。局部模型假设远程相互作用对系统动态的影响较小,从而实现线性扩展和高效评估。这些“局部模型”涵盖了包括神经网络势能在内的多种ML算法,提供了广泛的应用和优势。
虽然“局部模型”应用广泛,但由于截断相互作用的近似性限制了它们在更广泛系统中的应用。因此,增强MLPs的下一步是包含显式长程相互作用。Behler将MLPs分为四代,第二到第四代更好地包含了长程相互作用。第三代MLPs通过引入环境依赖的原子电荷计算长程静电能,而第四代MLPs则解决了非局部电荷转移问题,如CENT和4G-HDNNP。这些方法提高了数值精度和适用范围,但仍需进一步研究以整合分散和感应等长程相互作用。
信息传递神经网络(MPNNs)是一种重要的MLP方法,通过迭代地在原子间传递信息来获取表示,学习局部环境,具有一定的截断半径,信息传递步数决定了有效范围。MPNNs可描述不同距离的相互作用,应用范围比“局部模型”更广。它们适用于分子动力学模拟,发展出类似量子力学力的连续和等变性NNs,如NequIP、NewtonNet和Allegro。MACE利用高阶信息传递编码局部环境,展示了高度准确性和可转移性,但在非共价相互作用方面仍有改进空间。
MLPs面临的一个挑战是预测电子激发态的能量,这对于传统的量子力学方法如DFT也是困难的。DFT的基本理论并未涵盖激发态,大多数DFT泛函设计用于准确的基态预测。NNs可以通过调整损失函数预测多个激发态能量、力、旋轨耦合和非绝热耦合。尽管此方法有效,但在锥形交叉等PES区域模型的转移性仍然是个问题。使用极化原子相互作用NN的去势化方法(如PaiNN)在某些化合物家族内展示了良好转移性。激发态的ML势能和力场仍是一个活跃且前景广阔的研究领域。
经典力场、从头算计算和MLPs将任意3D原子配置映射为能量和作用力,适用于从小分子到复杂晶体系统的模拟。近年来,MLPs解决了许多基础研究问题,并在相变硫属化物、电池电极和多组分合金等功能材料中取得应用。然而,选择合适的MLP模型仍很复杂,迫切需要最佳实践和基准。挑战包括长程效应的准确计算和高质量训练数据的生成。结合物理法则和优化数据集可提高MLPs的准确性和效率,但仍需避免不符合物理规律的模拟结果。
除了尝试在评估电子能量方面替代量子力学(QM),ML技术也用于增强传统QM计算。ML可以预测一些难以找到或预测的量子化学中间体,协助优化QM方法的内部参数,使QM计算正常进行。作者将回顾一些重要模型,这些模型的最终预测仍依赖于传统QM计算程序(见图4)。
传统ML模型因忽略化学过程的物理规律而具有有限的外推能力,难以处理材料科学中的转移性问题和罕见但决定性的事件。为解决这些问题,开发了可微分物理模型,通过自动微分技术在相关物理框架中优化参数,结合严谨的领域知识和科学原理。例如,ML增强的半经验量子力学(SEQM)利用ML算法差分优化哈密顿量,性能可与DFT相比。其他策略包括Δ-ML改进的哈密顿量、AIQM1、ML增强的扩展Hückel模型(ML-EHM)、密度泛函紧束缚(DFTB)的斥力贡献拟合、OrbNet中的DFTB能量预测,以及ML增强的原子簇扩展(ML-ACE)。
近期在预测有效哈密顿量的ML模型方面取得了重要进展。这种方法类似于参数化紧束缚DFT哈密顿量,首个模型由Hegde和Bowen开发,展示了与DFT质量带隙匹配的出色表现。随后,Unke等人开发了恢复最小基组中有效Fock矩阵的模型SchNOrb,能生成波函数、能量、力和其他分子性质。后续研究,如Nigam等人和PhiSNet,利用等变ML技术减少训练时间并提高准确性和效率。这些模型可以用于迁移学习或量子力学计算的初始猜测,展示了高度的多功能性。
在DFT中,使用ML技术学习系统密度或开发准确的交换-关联(XC)泛函已成为广泛研究的领域。虽然许多XC泛函已经发展,但混合泛函因其高准确性和转移性而受到青睐。ML增强的泛函优化策略,如贝叶斯优化和高斯过程,被用来微调混合和长程泛函参数。DeepMind 21(DM21)通过使用部分电子、电荷和自旋约束的NN优化权重,显著提高了准确性。
考虑到寻找通用泛函的困难,出现了绕过Kohn-Sham(KS)方程的替代方法。NNs被用来学习非相互作用势与总基态能量及其组分之间的映射,或直接预测电子密度。ML应用于加速或绕过KS方程的主要目标是无轨道DFT,学习Hohenberg-Kohn映射以计算分子系统的密度泛函,从而实现ML密度泛函的分子动力学模拟。
后HF方法尝试恢复HF解中缺失的电子相关性,如Möller-Plesset(MPn)微扰理论(PT),通过考虑总哈密顿量与HF算符之间的差异逐步修正HF能量和波函数。这一方法可扩展到其他后HF方法,例如MP2在基态性质和CASPT2在电子激发态能量中广泛应用。全配置相互作用(FCI)方法通过对HF基态及其所有激发态进行对角化,但计算复杂度较高。CC方法通过指数形式参数化波函数,提供了更高效的解决方案,如CCSD(T)被认为是QC的黄金标准。ML技术已用于减少高计算成本,如预测MP2和CCSD能量相关性,以及通过Δ-ML框架提高低成本计算的准确性。
后HF方法的一个不足是缺乏电子相关性。CAS方法通过考虑激发态配置,解决了这个问题。最成功的是全活性空间自洽场(CASSCF)方法,但由于对角化空间大且选择活性空间轨道复杂,计算成本高。ML可用于自动选择活性空间,加速材料发现和化学设计。例如,AutoCAS使用部分收敛的密度矩阵重整群(DMRG)技术来选择活性空间。最近的ML模型如Golub等人提出的基于DMRG轨道熵预测活性空间轨道,Gagliardi等人开发的模型则预测活性空间的有效性。
选定配置相互作用(CI)方法旨在精确计算电子能量,通常依赖于PT或蒙特卡罗模拟来选择重要的决定因素。ML模型可以增强这些选择过程。Jeong等人设计了一种主动学习CI方法,通过迭代引入决定因素,类似于自适应采样CI,显著接近完整活性空间CI(CASCI)的激发能量,成本却低得多。早期的ML-CI工作由Coe完成,小型NN用于选择配置,显示出跨几何形状的良好转移性。其他方法如限制玻尔兹曼机和Chembot也用于生成决定因素。
两粒子简约密度矩阵(2RDM)方法因其在不增加复杂性的情况下描述电子波函数的能力而受到关注。Sager-Smith和Mazziotti利用ML,将轨道能量及其在不同温度下的类玻尔兹曼分布输入NN,产生有效的关联温度,成功再现昂贵量子力学计算的结果。另一种方法使用变分2RDM提取粒子熵等特征以获得高精度能量。尽管这种基于量子力学特征的监督学习方法提供了更高的泛化性,但捕捉电子-电子相互作用的适当表示仍是一个未解决的问题。
在构建物理启发的机器学习模型的过程中,从头算技术通过ML得到了增强。这类方法更接近传统计算物理,但利用了ML技术,如自动微分、图神经网络、递归神经网络、变压器和规范流等,开辟了处理旧问题的新途径。作者将强调重要的贡献和一些较新的进展,并提供一个关于ML在从头计算量子化学方法中的未来潜力的观点(见图5)。
分子系统中的电子波函数必须遵守泡利不相容原理,具有反对称性。最近的深度学习研究使用图神经网络或变压器参数化广义轨道,捕捉电子-电子相关性。Han等人在2019年引入了神经网络电子波函数DeepWFs,随后Hermann等人开发了PauliNet,通过图神经网络学习电子坐标的回流变换。FermiNet由Pfau等人提出,使用图神经网络编码系统中的非线性相互作用,并通过K-FAC优化器提高了收敛速度和最终结果。其他方法包括使用高斯过程回归的GPS和qGPS,展示了在分子系统中的应用前景。
深度学习波函数与传统波函数的一个重要区别是参数数量,前者通常高出许多,达到数百万,而传统方法仅为数千。因此,深度学习的VQMC遵循ML的趋势,倾向于大型参数模型,但代价是计算成本高昂。例如,Psiformer计算苯的基态能量需要1754 A100 GPU小时,苯二聚体需要10695 A100 GPU小时。为了降低优化成本,研究者通过训练可转移波函数和代理模型来降低成本,并改进优化器和稀疏拉普拉斯算子。
深度学习波函数的另一个技术区别在于,传统模型中的结点面完全取决于行列式,而深度模型中的广义轨道可以改变波函数的结点面。Ren等利用这一点,通过预训练的FermiNet波函数获取结点面用于扩散蒙特卡罗模拟,获得了非常准确的能量值。此外,神经网络波函数不依赖于特定基组,可以应用于更复杂的系统,如正电子化学,展示了在各种系统中实现高精度的潜力。
本文回顾了计算化学的传统应用及机器学习在该领域的影响。机器学习的引入带来了多种好处,具体取决于化学表示和嵌入的物理学。物理方程的美在于其不仅能插值,还能高质量外推。增加物理学的引入提高了泛化能力,降低了数据需求。然而,缺乏物理信息的机器学习工具(如MLPs)应用范围有限,因为每个新系统类别都需要扩展训练数据集。未来的挑战包括将量子力学描述符引入生成模型,并在分子生成和材料设计中嵌入物理信息。尽管各模型在训练和使用上的计算效率存在权衡,但物理驱动的机器学习模型通常更具可转移性。未来,理论化学家的直觉将继续推动计算实验的进步,结合量子力学和机器学习,探索新的解决方案。
Aldossary A, Campos‐Gonzalez‐Angulo J A, Pablo‐García S, et al. In silico chemical experiments in the Age of AI: From quantum chemistry to machine learning and back[J]. Advanced Materials, 2024: 2402369.