AEM：机器学习助理催化钙钛矿催化性能设计

【做计算找华算】理论计算助攻顶刊，10000+成功案例，全职海归技术团队、正版商业软件版权！

研究背景

有效催化氧还原和析出反应的新材料对于促进固体氧化物燃料电池和电解槽（SOFC/SOEC）技术的广泛采用至关重要。威斯康星大学麦迪逊分校的Jacobs研究员团队开发了机器学习 (ML) 模型来预测对 SOFC/SOEC 应用至关重要的钙钛矿催化特性，包括氧表面交换、氧扩散率和面积比电阻 (ASR)。这些模型基于简单计算的基本特征，比基于从头推导特征的最佳模型更准确、更快，可能消除基于描述符的筛选中从头计算的需要。该模型还被用于筛选超过 1900 万种钙钛矿，以开发一系列有前途的廉价、地球丰富、稳定和高性能材料。

计算方法

该研究中所有机器学习模型的拟合和评估均使用材料科学机器学习工具包（MASTML）进行。对于主文中所示的催化性能拟合，该研究评估了随机森林、梯度提升回归器、极端梯度提升（XGBoost）、高斯过程回归（GPR）和神经网络模型在预测催化性能值方面的有效性。该研究发现随机森林、梯度提升和XGBoost模型在性能上表现相当，其中随机森林在所有性能指标上稍微优于其他模型。

此外，该研究发现神经网络模型（使用Zhai等人推荐的架构）在ASR评估上表现不佳，而GPR在ASR评估上与随机森林的性能相似。神经网络模型由4层组成，每层分别有16、12、8和4个神经元，使用tanh激活函数，并使用scikit-learn中的MLPRegressor模型（在MAST-ML中运行）进行构建。GPR模型的核函数设置为ConstantKernel⨯Matern+WhiteKernel。随机森林模型由250个单独的决策树估计器组成。钙钛矿组成使用元素进行特征化，从MAST-ML的ElementalFeatureGenerator类中生成的属性。

简而言之，该特征生成器使用了一组最初来自MAGPIE数据库的元素属性，但在Wu等人和Lu等人的作品中进行了扩展，并对这些特征进行了最大值、最小值、差值和组成加权平均值等基本算术运算。对于ASR的机器学习模型，测量中使用的电解质（即YSZ和ScSZ基于氧化锆，GDC和SDC基于二氧化铈，LSGM基于钙钛矿）也被编码为一种特征。通过随机森林模型的特征重要性排序，选择了最相关的一组特征。

结果与讨论

3.1 机器学习取代电子结构描述符进行催化特性预测

该研究使用 Jacobs 等人建立的钙钛矿催化性能数据库：揭秘749个数据点、299种成分的奥秘。该数据库包含37种化学元素（不含O），La、Sr、Ba成为主要出现的元素，Co和Fe是最常见的过渡金属，Nb是最常见的非3d过渡金属。数据涵盖氧示踪剂、化学表面交换系数k和kchem、示踪剂和化学氧扩散系数D和Dchem，以及ASR值。该研究以T=500°C构建随机森林ML模型，通过随机5倍CV评估模型误差，采用MAST-ML工具包进行模型拟合与评估。所有模型以元素属性组合作为特征，可快速预测新化合物性能。此外，该研究也使用随机5倍CV评估拟合O p带中心的线性模型的误差，以便与之前的研究结果进行比较。

图1. 机器学习模型随机交叉验证评估将 DFT 计算的 O p 带中心描述符的性能与使用基本特征的线性模型和随机森林模型进行比较(T = 500 °C)。k*和kchem的单位是cm s⁻¹，D*和Dchem的单位是cm² s⁻¹，ASR的单位是Ohm-cm²。误差线是 5 倍 CV 的 25 个分割中计算出的 MAE 平均值的标准误差。

3.2 具有低误差、校准良好的不确定性和有效的瞬态材料预测的 ASR 机器学习模型

图2详细展示了该研究的ML模型在ASR预测方面的性能。该研究发现，最有效的ASR模型采用了元素特征、电解质类型的one-hot编码以及ASR的阿伦尼乌斯能垒的单独ML模型预测组成的特征。相比之下，仅使用元素特征和one-hot电解质类型编码的模型性能较差。图2A和3B分别显示了适合所有数据（完全拟合）并通过随机5倍CV评估的随机森林ML模型的奇偶图。在这些奇偶校验图中，蓝点代表包含4个或更少独立实验测量值的材料，绿点代表具有超过4个测量值的“经过充分研究”的材料。之所以对经过充分研究的材料进行分离，是因为该团队之前的工作表明这些材料的特性更容易拟合，可能是因为它们通过平均多次测量而降低了噪声。奇偶图中各点上的误差线是根据ML预测校准的不确定性估计。由于该研究的随机森林模型是决策树的集合，因此该研究可以通过计算各个树的预测的标准差来获得每个预测的不确定性。这种方法提供了预测不确定性的简单集合估计，但无法先验地判断这种不确定性估计本身是否准确。该研究C爱用Palmer等人的方法开发了校准的不确定性估计，并证明这些校准的不确定性估计是相当准确的。

从图 2A 中的完全拟合模型来看，该研究的 ML 模型能够准确地拟合ASR 数据库，并且校准的误差线往往与 y = x 线相交，这代表了完美的预测。从图 2B 中的 5 倍 CV 结果来看，与完全拟合相比，定量预测质量有所降低，对于该研究数据库中最低（最高）ASR 值的真实 ASR 值存在一定程度的高估（低估）。从材料筛选的角度来看，在最低值范围内高估 ASR 并不存在问题，因为它表明 ASR 预测可能保守地高于最终的真实值，从而最大限度地减少不良假阳性预测的可能性。在SI材料中，还提供了来自 Zhai 等人的工作的用于拟合最佳神经网络架构的 5 倍 CV 结果，以及高斯过程回归 (GPR) 模型（拟合的详细信息在 S1 节中）支持信息）。简而言之，该研究发现神经网络模型比随机森林拟合更差，而与GPR 模型的质量相当。

在图 2C 中，该研究使用 ML 回归模型来分类特定材料的对数 ASR 值是否低于给定阈值的问题。该研究使用图 2B 中的 5 倍 CV 结果和朴素模型进行此分类，其中朴素模型每次只是猜测极低的 ASR 值，因此总是预测低 ASR 类别。结果表明，对于 500 °C 下 log ASR < 0.7 Ohm-cm² 的材料， ML 回归模型的 F1 分类得分为 0.81，这代表了性能相对较高的材料。即使是朴素的模型，在 log ASR 为 0.7 Ohm-cm²时也显示出 0.63 的不错的 F1 分数，该研究认为这是 ASR 数据库主要包含低 ASR 值的结果。

图2. 用于预测 T = 500 °C 时对数 ASR 的 ML 模型性能摘要。A) 完全拟合所有数据的奇偶图，B) 5 倍 CV 评估，C) 用于预测对数 ASR 低于给定阈值的材料的 ASR 模型分类准确性，D) 时间交叉验证分类评估。

3.3 利用机器学习筛选新的有前景的钙钛矿催化剂

在这一节，研究使用了前文讨论的ASR ML模型、以及利用pymatgen包计算的材料成本和钙钛矿稳定性的独立ML模型，来筛选潜在的新型钙钛矿催化剂。稳定性模型采用随机森林模型和元素特征，对2844种钙钛矿氧化物进行预测，使用Ma等人的数据库作为凸壳能量测量的依据。总体而言，该研究对一个庞大的搜索空间进行了枚举，其中A位点最多包含3种元素，B位点最多包含4种元素，涵盖了50种元素，共计超过1900万种材料。

为了寻找潜在的新材料，该研究设定了筛选标准，包括成本、稳定性和ASR活性的阈值。成本阈值设置为与商业材料La_0.6Sr_0.4Co_0.2Fe_0.8O₃（LSCF）相当，即每公斤133.67美元。对于活性，将LSCF（500°C）的log ASR值阈值设定为1.33 Ohm-cm²，以及代表性顶级性能材料Ba_0.5Sr_0.5Co_0.8Fe_0.2O₃的log ASR（500°C）阈值为0.21 Ohm-cm2。稳定性的阈值参考了Zhai等人的工作，他们的顶级性能材料Sr_0.9Cs_0.1Co_0.9Nb_0.1O₃（SCCN）在550°C下稳定运行800多个小时，没有观察到任何性能损失。该研究的稳定性模型预测SCCN在500°C时的值为93.3 meV原子-1，将其作为筛选的稳定性阈值。在整个分析过程中，该研究假设使用二氧化铈电解质来预测ASR。

图3. 显示筛选材料分布的小提琴图，其中第一次筛选是 A) 筛选材料成本，B) 筛选材料稳定性，以及 C) 筛选 ASR。每个分布上方的数字表示通过给定筛选组合的材料数量。

图3 包含小提琴图，显示了连续应用筛选标准时成本（图3A）、稳定性（图3B）和 500 °C 下的预测对数 ASR（图3C）的分布，从每种情况下绘制的标准开始。从图3中，可以看到2453872、1393424和2135396材料分别通过了成本、稳定性和ASR的筛选标准，这相当于原始19072821考虑材料的12.9%、7.3%和11.2%，稳定性是最严格的筛选标准。共有 57579 种材料（0.30%）通过了成本和稳定性筛选，53210 种（0.28%）材料同时通过了稳定性和 ASR 筛选。最终，9135 种（0.05%）材料通过了所有筛选标准。SI材料中提供了包含这些 9135 材料的成分、计算成本以及预测稳定性和 ASR 值的电子表格。

该研究利用ASR模型和预测清单进行大量材料评估和比较。首先，该研究检查每个筛选标准（成本、稳定性和ASR值）中最有利的被筛选材料。通过检查这个筛选有前景的材料清单，发现在成本、稳定性和活性方面最佳的材料分别是BaFe_0.75Cu_0.125Zr_0.125O₃（1.15美元/公斤，500°C下log ASR = 0.12 Ohm-cm²）、BaFe_0.5C_o0.25Mo_0.25O₃（原子能量18.0 meV，500°C下log ASR = -0.02 Ohm-cm²）和SrCo_0.75Nb_0.125Ta_0.125O₃（SCNT）（500°C下log ASR = -0.43 Ohm-cm²）。值得注意的是，该研究筛选出的最活跃材料SCNT已经被确认具有较高性能。其次，通过检查该研究的低ASR材料清单，寻找与已知材料在成分上有所不同的新材料，这使它们值得进一步研究。检查该研究清单中前几名材料候选者中，具有与已知材料相比较独特组合的高性能材料，发现这些材料具有K、Bi、Y、Ni和Cu等元素的不寻常组合，表明这些相对未探索的组成可能值得进一步关注。例如，材料SrZr_0.125Nb_0.125Co_0.625Cu_0.125O₃（SZNCCu）、K_0.25Sm_0.125Sr_0.625Nb_0.125Ta_0.125Co_0.75O₃（KSmSCNT）和Bi_0.125Sr_0.875Y_0.125Ni_0.125Co_0.75O₃（BiSYNC）在500°C下预测的log ASR值非常低，分别为-0.37、-0.33和-0.25 Ohm-cm²。

结论与展望

这项工作开发了一个完全以数据为中心的机器学习方法，用于预测钙钛矿氧催化和传输性能，利用了迄今为止最大的钙钛矿氧催化性能数据库，其中包括氧表面交换速率、氧扩散率和ASR数据。该研究表明，利用易于获取的元素特征拟合的随机森林机器学习模型可以产生与使用DFT计算的O p-带中心线性相关性相当或更低的交叉验证平均MAE值。这些机器学习模型的评估速度比使用每种材料的O p-带中心描述符的DFT计算快几个数量级，为快速筛选钙钛矿催化性能提供了途径。

团队利用该研究的ASR机器学习模型，筛选了超过1900万种钙钛矿组合，并提出了许多新的有前途的材料，这些材料比商业材料LSCF更便宜，比性能良好的材料SCCN更稳定，并预测在T=500°C时具有异常低的ASR值，值得进一步研究。

文献信息

Jacobs R, Liu J, Abernathy H, et al. Machine Learning Design of Perovskite Catalytic Properties[J]. Advanced Energy Materials, 2024: 2303684.DOI：10.1002/aenm.202303684

【做计算找华算】华算科技专注DFT代算服务、正版商业软件版权、全职海归计算团队，10000+成功案例！

客户成果发表在Nature、Nature Catalysis、JACS、Angew.、AM、AEM、AFM等顶刊，好评如潮，专业靠谱！

添加下方微信好友，立即咨询：

电话/微信：13622327160

点击阅读原文，立即咨询计算！