通讯作者:Javier Pérez-Ramírez本文综述了数据科学在催化研究中的应用,强调了催化剂发现和开发对全球能源、可持续性和医疗保健需求的重要性。过去十年中,数据科学概念在催化研究中的利用显著增加,以帮助解决这些问题。文章全面回顾了催化研究者如何利用数据驱动策略解决多相、均相和酶催化中的复杂挑战。研究者将所有研究分为演绎型或归纳型模式,并统计推断催化任务、模型反应、数据表示和算法选择的普遍性。文章突出了该领域的前沿和催化子学科之间的知识迁移可能性。关键评估揭示了实验催化中数据科学探索的明显差距,并通过详细阐述数据科学的四个支柱(即描述性、预测性、因果性和规范性分析)弥合这一差距。文章提倡将这些分析方法纳入常规实验工作流程,并强调数据标准化对未来数字催化研究的重要性。图1:展示了过去十年数据驱动催化研究的增长趋势,特别是从2018年开始的指数增长。图中将催化问题解决使用机器学习(ML)的方法分类为演绎型和归纳型两种通用模式,其中演绎型任务旨在筛选或优化催化性能,而归纳型任务则侧重于通过描述符或活性位点识别来得出机理见解。图2:网络图映射了基于催化类型(a)和驱动力(b)的演绎任务之间的关系。图中的节点表示显著实体的出版物计数,包括催化类型、驱动力、任务和数据源,节点之间的弧长与出版物之间的相互关系频率成正比。图3:总结了催化领域主要的开源数据库,根据催化类型、数据源和它们所引发任务进行分类,并展示了这些数据库对FAIR(可发现、可访问、可互操作和可重用)原则的遵循程度。图4:通过ML建立结构-属性-性能关系的图谱,展示了多相(a)、均相(b)和酶催化(c)中用于建立结构-属性关系的ML算法的使用情况。图5:展示了催化中先进的AI框架,包括从文献中提取合成程序和催化属性的语言模型(a),主动学习用于探索特定催化剂的化学空间(b),使用GANs和VAEs等深度学习模型进行假想合金和配体的虚拟生成(c),以及深度强化学习用于优化催化表面或反应网络(d)。图6:数据驱动催化的四个支柱示意图,包括描述性分析、预测性分析、因果性分析和规范性分析。图7:展示了数据驱动催化的生命周期,包括描述性、预测性、因果性和规范性分析在实验催化工作流程中的应用。图8:展示了将ML算法与表征工具集成的最新进展,包括深度学习在透射电子显微镜图像分析中用于自动化原子检测(a),以及结合XANES光谱学和ML方法用于改进多相催化剂的3D几何结构(b)。文章强调了数据科学和机器学习(ML)在催化研究中的前景,预示着这些技术将极大提高研究生产力。同时指出,尽管这些技术不会取代人类的直觉和专业知识,但它们应该被催化研究者们接受,并成为每个从业者工具箱的一部分。文章呼吁催化从业者发展对数据驱动概念和建模策略的基础理解,并熟悉数据准备、算法适用性评估及其优势和局限性。同时,也鼓励数据科学家培养对催化的欣赏,有效地将催化过程的复杂性转化为数据科学问题,并理解实验限制。文章展望了一个未来,其中数字工具无缝集成到催化研究中,加速实验设计、数据分析和新知识的创造,促进数据驱动的决策制定,助力解决催化研究中的一些重大挑战。标题:Embracing data science in catalysis research
DOI:10.1038/s41929-024-01150-3【高端测试 找华算】华算科技精于高端测试服务、10余年球差电镜拍摄经验、同步辐射三代光源全球机时,300多博士/博士后等高层次人才团队亲自检测,给你高标准的数据质量保证! 球差电镜、同步辐射、原位表征、DFT计算,已助力10000多研究成果顺利在Nature、Science、JACS、Angew、EES、AM、AEM、AFM等国际顶级期刊发表,专业靠谱好评如潮! 添加下方微信好友,立即预约