英文原题:Rational Design of Deep Learning Networks Based on a Fusion Strategy for Improved Material Property Predictions
通讯作者:汪洪、张澜庭、惠健(上海交通大学)
作者:Hongwei Du (杜红伟), Jian Hui (惠健)*, Lanting Zhang (张澜庭)*, and Hong Wang (汪洪)*
机器学习在预测材料属性方面的成功在很大程度上取决于模型的设计。然而,目前材料科学中深度学习模型的设计存在以下突出问题。首先,模型设计缺乏理性的指导策略,严重依赖大量的试错。其次,众多深度学习模型在不同领域中被利用,各有优缺点,但是缺乏整合这些模型的融合策略。为了解决这些问题,我们认为主要原因是缺乏一种富有物理洞察力的新反馈方法。
图1. 深度学习模型的理性设计流程。
在本研究中,我们基于融合策略开发了一种名为化合物在不同阈值下的化学环境聚类向量(CECV)的富有物理洞察力的反馈方法。基于CECV,我们理性设计了融合长短期记忆(LSTM)、门控循环单元(GRU)和深度卷积神经网络(DCNN)的L-G-DCNN模型,以探索材料属性预测领域。L-G-DCNN能够准确捕捉化合物中元素之间的相互作用,实现对材料属性准确和高效的预测。结果表明,L-G-DCNN在28个基准数据集上超越了当前最先进的模型,展现出优越的学习效率和更快的收敛速度。通过使用不同的可视化方法,我们展示了基于CECV的融合策略显著增强了对模型演变过程的理解,并为材料信息学领域的研究人员提供了新的视角。
图2. 提取元素特征矩阵(EFM),并在不同阈值下计算模型的CECV,实现模型的理性设计。
传统的评估方法如平均绝对误差 (MAE) 和均方根误差 (RMSE) 只能提供基于统计的测试集性能分析,缺乏深入的物理理解。为了克服这些限制,我们引入了CECV的方法,通过它来获取丰富的物理反馈,优化模型设计。CECV的获取和指导模型理性设计的过程如图2所示:
1. 模型组件的选择和初始化:挑选模型组件,如LSTM、GRU、RNN等全局模型,以及DCNN、DCNN-K1、CNN等局部模型,并集成注意力和池化组件。实现初始化模型,得到LDCNN。
2. 模型训练和测试:基于OQMD形成焓数据集,使用选定的模型LSTM、DCNN-K1、DCNN和LDCNN进行训练和验证。数据按70/15/15的比例进行划分,并统一训练参数。
3. 化合物的EFM提取:在OQMD形成焓测试集中,利用训练好的模型从2374种提取含硅化合物的EFM。这里以含硅化合物为例,其他元素的化合物同样适用。
4. CECV生成:基于提取的EFM,对所有含硅化合物进行聚类,设置不同的聚类阈值范围如[0.05, 0.1, 0.15, 0.2, 0.25, 0.3, 0.35, 0.4],然后生成一组CECV,记录不同模型在每个阈值下的聚类值。
5. 目标区域的定义:制作图表展示各模型在不同聚类阈值下的CECV数量,x轴为阈值,y轴为CECV数。用LSTM和DCNN-K1作为参考,确定目标区域,帮助理解模型在全局与局部化学环境学习的表现和平衡。
6. 模型组件的理性优化:识别当前模型的CECV与目标区域之间的偏差,调整模型的全局或局部特征提取器权重,优化模型组件配置,实现模型理性设计。
图3. 展示了L-G-DCNN与Roost、Crabnet和Finder等参考模型在计算数据集上的MAE值。颜色显示了各模型的相对性能(蓝色为优,红色为差),最佳MAE值被加粗显示。
图3比较了各模型在测试数据集上的MAE得分,显示L-G-DCNN系列模型在多数情况下表现最佳。不同架构和设计理念的模型如Roost、Crabnet、Finder和L-G-DCNN趋向一致的性能,证明了基于CECV的模型设计方法的有效性。
图4. 在模型融合前后,对56种化合物带隙影响最大的元素相互作用对。
深度学习模型的可解释性是一个挑战。通过将L-G-DCNN分解为LSTM和DCNN,提供了模型性能提升过程的演变信息。利用OQMD带隙数据集,我们筛选出56种在LSTM中相对于L-G-DCNN表现不好的化合物。通过对比这些化合物的EFM,我们发现影响带隙的元素相互作用对,主要涉及高电负性元素如氧、氯和氟等。这些元素形成的强共价键对带隙有显著影响,这与物理直觉一致,验证了L-G-DCNN在预测材料属性方面的有效性。
结论与展望
我们通过创新的CECV反馈方法设计了L-G-DCNN模型,显著提升了材料属性预测精度和学习效率。通过分析元素贡献和可视化化合物的EFM,我们深入理解了模型融合演变过程,并识别出影响材料属性的关键元素相互作用。L-G-DCNN的设计思想在以下方面可以做进一步的扩展:
1. 模型设计架构扩展:L-G-DCNN融合了LSTM和DCNN,实现了从局部到全局的特征学习的融合,其中的全局和局部模型组件的设计还可以根据具体的应用场景进一步完善和扩展。
2. 模型性能演变透明化:模块化设计使得模型性能的改进过程清晰可见,有助于识别影响材料属性的关键的元素或者基团的相互作用。这一思想有潜力推广到更加复杂的掺杂,固溶体和聚合物系统的设计中。
3. 基于CECV的代理模型的理性优化策略:CECV的引入为小数据集的代理模型优化带来了新方法,通过化学环境的考量,增强了模型设计的物理深度。例如,面对合金成分设计等复杂任务时,利用CECV对L-G-DCNN的模型组件进行评估和优化,可以解决传统高斯过程(GP)代理模型在大搜索空间和数据限制下的挑战,实现有限资源高效利用,加速数据向知识的转化过程。
相关论文发表在 Journal of Chemical Theory and Computation上,上海交通大学杜红伟为文章的第一作者,上海交通大学、张江高等研究院汪洪教授,上海交通大学张澜庭教授,上海交通大学、张江高等研究院惠健助理研究员为通讯作者。
原文(扫描或长按二维码,识别后直达原文页面):
Rational Design of Deep Learning Networks Based on a Fusion Strategy for Improved Material Property Predictions
Hongwei Du, Jian Hui*, Lanting Zhang*, and Hong Wang*
J. Chem. Theory Comput. 2024, 20, 15, 6756–6771
https://doi.org/10.1021/acs.jctc.4c00187
Published Date: July 17, 2024
Copyright © 2024 American Chemical Society
通讯作者简介
汪洪博士,上海交通大学材料基因组联合研究中心主任,材料科学与工程学院和张江高等研究院讲席教授,中国材料试验标准委员会(CSTM)材料基因工程领域委员会主任委员。获得北京大学学士,美国伊利诺伊大学香槟分校硕士、博士。研究集中在材料基因工程理论,数据标准,高通量材料制备与表征技术及人工智能在材料中的应用。发表了材料基因工程的核心是数据+人工智能、数据工厂等理论成果,牵头制定了国际上首个材料基因工程数据通则。开发搭建了国内首个智能化新材料研发的研究平台,即集高通量制备、多参数同位高通量表征(实验室装置及同步辐射大科学装置)及自动化高通量数据分析、机器学习数据挖掘为一体的材料基因组基础设施。
张澜庭博士,上海交通大学材料科学与工程学院教授,博士生导师,材料学院高性能金属研究所所长。分别于1991、1994和1997于上海交通大学获得学士、硕士和博士学位,1999-2003年间在日本京都大学从事博士后研究,获日本学术振兴机构(JSPS)博士后奖学金。2005年获上海市首届浦江人才计划资助。长期从事材料微观结构表征和计算模拟的研究,近年来从事材料基因组高通量实验技术和材料信息学的研究,国家重点研发计划“材料基因工程关键技术于支撑平台”重点专项项目首席科学家,中国材料与试验团体标准化委员会(CSTM)材料基因工程领域委员会(FC97)秘书长,国际刊物《Journal of Alloys and Metallurgical Systems》副主编。在国际知名期刊上发表学术论文100余篇。
惠健博士,上海交通大学材料学院、张江高等研究院助理研究员。2020年博士毕业于上海交通大学材料学院。2019年至2021年赴美国伊利诺伊大学香槟分校进行访问研究。自2016年起专注于高通量综合实验平台的建设及相关技术研发。以项目骨干身份参与了多个材料基因工程国家重点专项项目、并指导了数个“上海交通大学致远学者”项目。在上海交通大学以骨干身份搭建了集高通量制备、高通量表征、自动化数据分析及机器学习数据挖掘为一体的数据驱动研发平台。发表材料基因工程领域的SCI论文20余篇,申请/授权发明专利3项。
课题组主页:
https://magic.sjtu.edu.cn
(本稿件来自ACS Publications)