Digital Discovery 是英国皇家化学会 2021 年推出的新刊，开领域之先河，乘自动化与数字化科研技术之东风，致力于成为数据驱动型科研成果的高质量发表平台。

根据 2024 年 6 月发布的最新《期刊引证报告 (JCR)》，Digital Discovery 期刊收获了 6.2 的首个影响因子，并且同时处于“计算机科学-跨学科应用”和“化学-跨学科”这两大学科类别中的 Q1 区。

2024 年 6 月号 ⦿ 现已上线

找到最优解所需的实验或计算次数最少是多少次？相关的化学问题范围广阔：从在给定的相空间内识别出具有目标功能的化合物，一直到材料合成和设备制造的条件控制。该应用领域的一个共同特点是问题的维度和评估成本都很高。选择合适的优化技术是关键所在，标准的选项包括迭代方法（例如最陡下降法）和启发式算法（例如模拟退火算法），而新一代的统计机器学习方法已成为了上述方法的补充。

本篇前瞻性综述介绍了贝叶斯优化算法并重点阐述了其在材料研究的最新成功案例。另外，对于带有自动化研究工作流程的机器学习算法（它们会产生小而嘈杂的数据集），该文也对它们在应用中面临的挑战进行了探讨。作者们最后概述了多目标和并行算法（它们的目标是实现稳健而高效的搜索）的发展机遇。

Race to the bottom: Bayesian optimisation for chemical problems

Yifan Wu, Aron Walsh* (🇬🇧 伦敦帝国理工学院材料系／🇰🇷 梨花女子大学物理学系) and Alex M. Ganose* (🇬🇧 伦敦帝国理工学院化学系分子科学研究中心)

Digital Discovery, 2024, 3, 1086-1100

https://doi.org/10.1039/D3DD00234A
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

该文报道了一种新的计算机视觉方法，其使用人工神经网络 (ANN) 对气泡图像进行自动化处理，从而对不同辛烷值 (ON) 的石油产品进行分类。

超声波辐射会诱发空化气泡，这些气泡会表现出生长、振荡和共振形状。汽油溶液可能具有不同的物理和化学性质。虽然准确了解这些特性如何影响气泡动力学具有挑战性，但在气泡图像上训练人工神经网络 (ANN) 算法可以对具有不同 ON 值的汽油气泡进行分类。超声空化方法与计算机视觉和人工智能技术的结合为液体流动中的实时辛烷值 (ON) 评估提供了一种有前途的方法。

Automatic image processing of cavitation bubbles to analyze the properties of petroleum products

Timur Aliev, Ilya Korolev, Olga Burdulenko, Ekaterina Alchinova, Anton Subbota, Mikhail Yasnov, Michael Nosonovsky* (🇺🇸 威斯康星大学-密尔沃基机械工程系／🇷🇺 圣彼得堡国立信息技术机械与光学大学信息化学科学中心) and Ekaterina V. Skorb* (🇷🇺 圣彼得堡国立信息技术机械与光学大学信息化学科学中心)

Digital Discovery, 2024, 3, 1101-1107

https://doi.org/10.1039/D4DD00003J
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

复杂的分子有机流体（如沥青、润滑剂、原油或生物精炼厂的生物基油）本质上很难以分子精度建模，因为其成分中的有机分子种类繁多且复杂。大规模原子模拟历来受到这种复杂性的限制，这阻碍了对这些材料自下而上的分子设计。

为了克服这一阻碍，该文发展出了一种作者不可知的计算框架，可直接从气相色谱-质谱 (GCMS) 实验表征结果中生成任何复杂有机分子混合物的数据驱动代表性模型，从而减少模型创建中的人为偏见，并为分子有机流体的自主数字开发提供平台。这一方法可生成具有统计代表性的分子样本，简化了有限分子组中流体的复杂性，同时捕获了描述混合物整体特性所需的关键化学特征。

Data-driven representative models to accelerate scaled-up atomistic simulations of bitumen and biobased complex fluids

Daniel York, Isaac Vidal-Daza, Cristina Segura, Jose Norambuena-Contreras and Francisco J. Martin-Martinez* (🇬🇧 斯旺西大学化学系)

Digital Discovery, 2024, 3, 1108-11221108-1122

https://doi.org/10.1039/D4DD00064A
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

随着数据驱动的材料研发成为新范式，机器学习在材料科学中的应用越来越受欢迎。研究结果的可重复性对于促进研究的透明度和责任制以及建立科学界的信任至关重要。

该文对 K. Choudhary 和 B. Brian 的工作 [npj Comput. Mater., 7, 2021, 185] 进行了可重复性分析。作者们检查了初始文献中的模型在 29 个回归任务上的性能以及图形神经网络层消融分析的可重复性。结果发现，尽管模型性能和训练效率存在细微差异（这可能是由于硬件差异和模型训练和数据分割中的随机性等因素造成的），但重现的结果通常与初始文献的结果表现出良好的定量一致性。开展这类可重复性实验的便利性证实了数据和代码开放的巨大益处。

A reproducibility study of atomistic line graph neural networks for materials property prediction

Kangming Li* (🇨🇦 多伦多大学材料科学与工程系), Brian DeCost, Kamal Choudhary and Jason Hattrick-Simpers

Digital Discovery, 2024, 3, 1123-1129

https://doi.org/10.1039/D3MH00966A
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

溶剂或熔融相（凝聚相反应）分子的构型变化会影响反应热力学和动力学，因此，对于基于从头计算方法的反应分子模拟，评估是否需要明确考虑溶剂／熔融相分子是至关重要的。

该文将自监督的 3d 卷积神经网络 (CNN) 自动编码器与基于距离的分类器相结合，在从头计算的模拟结果上进行训练，以预测反应化学转化过程中溶剂构型变化的程度。该工作有望限制计算成本并加速分子模拟在筛选反应性化学转化溶剂中的应用。

A 3d convolutional neural network autoencoder for predicting solvent configuration changes in condensed phase biomass reactions

Anjana Puliyanda, Arul Mozhi Devan Padmanathan, Samir H. Mushrif and Vinay Prasad* (🇨🇦 阿尔伯塔大学化学与材料工程系)

Digital Discovery, 2024, 3, 1130-1143

https://doi.org/10.1039/D4DD00049H

(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

通过电化学手段将 CO₂ 转化为化学品和燃料以实现减排的技术方案面临着诸多因素的挑战，比如 CO₂ 在水性电解质中的溶解度较低以及难以使用聚合物电解质等。为此人们在系统设计时采用了气体扩散电极 (GDE) 的方案，以使电催化剂与气态反应物／产物流以及液体电解质接触。然而，对气体扩散电极的优化通常是由专家们手工完成的，费时费力。

为了实现气体扩散电极电化学反应装置的自动配置与运行并最终推动快速材料开发平台 (materials acceleration platform, MAP) 的实现，该文报道了一种自动化的气体扩散电极 (GDE) 测试系统 (AutoGDE)。对于某个带有催化剂涂层的气体扩散电极，AutoGDE 系统会自动完成将气体扩散电极插入电化学电池、操作液体和气体、利用在线质谱对气态反应产物进行定量分析以及对液体电解质进行留样以供后续分析等操作。

Accelerated screening of gas diffusion electrodes for carbon dioxide reduction

Ryan J. R. Jones, Yungchieh Lai, Dan Guevarra, Kevin Kan, Joel A. Haber and John M. Gregoire* (🇺🇸 加州理工学院工程与应用科学学部)

Digital Discovery, 2024, 3, 1144-1149
https://doi.org/10.1039/D4DD00061G

扫码阅读

免费全文下载

小分子发现的基本目标是获得具有目标功能的化学物质。虽然这通常是通过基于结构的方法进行的，但该文的作者们却希望尝试利用大量的化学文献。为此，他们利用大语言模型 (LLM) 从专利文献中提取信息，从而构建了一个化学功能 (Chemical Function, CheF) 数据集，其中包含有来源于专利文献的功能标签。分析表明该数据集具有语义结构，与构效关系一致，可用于对结构-功能模型的训练。

Mining patents with large language models elucidates the chemical function landscape

Clayton W. Kosonocky, Claus O. Wilke, Edward M. Marcotte and Andrew D. Ellington* (🇺🇸 德克萨斯大学奥斯汀分校分子生命科学系／系统与合成生物学中心)

Digital Discovery, 2024, 3, 1150-1159

https://doi.org/10.1039/D4DD00011K
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

自化学信息学诞生以来，对分子相似性的量化问题就一直存在。尽管文献已经报道过若干种相似性指标和分子表示，但它们最终都归结为每次只计算两个对象的分子相似性。因此，当需要获得一组分子的平均相似性时，就需要计算所有多分子对，这样就会消耗掉二次方倍的计算资源。

该文提出了解决此问题的一种精确替代方案：iSIM (instant similarity, 即时相似性）。iSIM 方法同时对多个分子进行比较，并通过二进制指纹和实值描述符表示得到与平均成对分子比较计算相同的值。该文还给出了数学框架并介绍了 iSIM 在化学采样、可视化、多样性选择和聚类中的几种应用。

iSIM: instant similarity

Kenneth López-Pérez, Taewon D. Kim and Ramón Alain Miranda-Quintana* (🇺🇸 佛罗里达大学化学系)

Digital Discovery, 2024, 3, 1160-1171

https://doi.org/10.1039/D4DD00041B
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

连续动态系统以微分方程为特征，被广泛用于如下几个重要问题的模拟：等离子体动力学、多孔介质流动、天气预报和流行病演变。近来已有许多种数据驱动模型被成功用于对这些系统的模拟。然而，相较于计算机视觉等成熟领域，很少有研究分析不同类型的这些模型的优势和潜在应用。

本文报道的 CoDBench 工具是一个详尽的基准测试套件，包含 12 个用于求解微分方程的最新数据驱动模型。具体而言，作者们根据 10 种广泛适用的基准数据集全面评估了 4 个不同类别的模型，涵盖了流体和固体力学中的挑战性问题。作者们希望这一资源能够有助于动态系统建模的加速进步。

CoDBench: a critical evaluation of data-driven models for continuous dynamical systems

Priyanshu Burark, Karn Tiwari, Meer Mehran Rashid, Prathosh A. P.* (🇮🇳 印度科学研究所班加罗尔) and N. M. Anoop Krishnan* (🇮🇳 德里印度理工学院)

Digital Discovery, 2024, 3, 11172-1181

https://doi.org/10.1039/D4DD00028E
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

机器学习正在成为多肽功能预测的重要工具，有望加速肽的发现。该文作者们探索了特征选择技术，以期改进抗菌肽和催化肽的数据挖掘，提高预测性能和模型可解释性。

Efficiently solving the curse of feature-space dimensionality for improved peptide classification

Mario Negovetić, Erik Otović, Daniela Kalafatovic* (🇭🇷 里耶卡大学工学部／生物技术与药物研发学部) and Goran Mauša* (🇭🇷 里耶卡大学工学部／人工智能与网络安全中心)

Digital Discovery, 2024, 3, 11182-1193

https://doi.org/10.1039/D4DD00079J
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

用于化学逆合成的机器学习模型近年来引起了广泛关注。尚未解决的挑战——特别是缺乏用于性能比较的稳健评估指标以及缺乏黑盒可解释性的问题——导致了模型的局限性并阻碍了该领域的进步。

该文提出了一种自动基准测试流程，旨在实现对模型性能的有效比较。作者们特别注重了用户友好的设计，旨在带来更好的可用性以推广其在科研工作者中的使用。此外，他们提出并进行了一项新的可解释性研究，以揭示逆合成模型的化学理解程度。结果表明，基于化学反应规则的框架能产生最多样化、化学上有效且可行的反应，而纯数据驱动的框架则存在不可行和无效的预测。可解释性研究强调，结合反应规则不仅可以提高模型性能，还可以提高可解释性。对于简单分子，他们发现图形神经网络可以识别出产物分子中的相关官能团，从而使模型具有可解释性。序列到序列的转换器无法实现这样的解释性。随着分子和反应机理变得越来越复杂，这两种数据驱动模型都给出了化学上不可行的断键方案。

这篇工作强调了在深度学习模型中加入具有化学意义的描述符的重要性，为逆合成工具的未来发展提供了重要的指引。

Investigating the reliability and interpretability of machine learning frameworks for chemical retrosynthesis

Friedrich Hastedt* ( 🇬🇧 伦敦帝国理工学院化学工程系) , Rowan M. Bailey, Klaus Hellgardt, Sophia N. Yaliraki, Ehecatl Antonio del Rio Chanona* (🇬🇧 伦敦帝国理工学院化学工程系) and Dongda Zhang* (张洞达, 🇬🇧 曼彻斯特大学化学工程系)

Digital Discovery, 2024, 3, 1194-1212

https://doi.org/10.1039/D4DD00007B
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

光学、电子和扫描探针显微镜的普及产生了大量图像数据，这些数据涵盖了从细胞、细菌、花粉到纳米颗粒、原子和分子等各种各样的物体。在大多数情况下，实验数据流包含具有任意旋转和平移的图像。同时还有少量的标记数据以先前发表的结果、图像集和目录甚至理论模型的形式存在。

该文作者们们发展了一种方法，可以将一小部分具有较弱的方向无序性的标记数据拓展至方向（和位置）无序性更强的大型未标记数据集中；也就是说，即使在标记部分和未标记部分之间存在分布偏移的情况下，该方法也可以根据少量示例对图像数据进行分类。

Semi-supervised learning of images with strong rotational disorder: assembling nanoparticle libraries

Maxim A. Ziatdinov* (🇺🇸 美国西北太平洋国家实验室物质科学部), Muammer Yusuf Yaman, Yongtao Liu, David Ginger and Sergei V. Kalinin

Digital Discovery, 2024, 3, 1213-1220

https://doi.org/10.1039/D3DD00196B
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

从研究论文中提取准确而全面的材料数据库对于材料科学与工程研究而言是至关重要的，但这些数据库的开发需要大量的人力。大型语言模型 (LLM) 改变了人类的文本交互的方式，为数据提取的变革提供了机遇。

该研究展示了一种简单而有效的方法，将大型语言模型的能力与人工监督相结合，从研究论文的全文中提取材料数据。这种方法特别适用于中型数据库，几乎不需要编写代码或有关属性提取的先验知识。它生成的数据库具有高查全率 (high recall) 和近乎完美的精度，在 96% 的查全率下实现了高达 90% 的准确率。

Flexible, model-agnostic method for materials data extraction from text using general purpose language models

Maciej P. Polak* (🇺🇸 威斯康星大学-麦迪逊材料科学与工程系), Shrey Modi, Anna Latosinska, Jinming Zhang, Ching-Wen Wang, Shaonan Wang, Ayan Deep Hazra and Dane Morgan* (🇺🇸 威斯康星大学-麦迪逊材料科学与工程系 )

Digital Discovery, 2024, 3, 1221-1235

https://doi.org/10.1039/D4DD00016A
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

该文报道的钙钛矿自动旋涂装配线 (Perovskite Automated Spin Coat Assembly Line, PASCAL) 是可被是用于旋涂薄膜沉积和表征的材料加速平台。作者们首先通过控制工艺参数提升了钙钛矿薄膜制造的一致性，随后展示了一项自动化的成分工程作业，以提高串联太阳能电池中钙钛矿吸收剂的耐久性。通过数据驱动的聚类分析确定了该空间内与耐久性和开路电压等性能系数相关的四种特征行为，每个样本的数据在 PASCAL 表征线中自动获取。最后，通过在高通量数据集上训练得到的回归模型确定了耐光照和高温暴露的薄膜成分。

PASCAL: the perovskite automated spin coat assembly line accelerates composition screening in triple-halide perovskite alloys

Deniz N. Cakan, Rishi E. Kumar, Eric Oberholtz, Moses Kodur, Jack R. Palmer, Apoorva Gupta, Ken Kaushal, Hendrik M. Vossler and David P. Fenning* (🇺🇸 加州大学圣地亚哥分校“李氏家族”化学与纳米工程系)

Digital Discovery, 2024, 3, 1236-1246

https://doi.org/10.1039/ D4DD00075G
(⬆️ 浏览器中复制打开)

扫码阅读

免费全文下载

期刊介绍

rsc.li/digitaldiscovery

Digital Discovery

2-年影响因子*	6.2分
5-年影响因子*	6.2分
JCR 分区*	Q1 计算机科学 - 跨学科应用 Q1 化学-跨学科
CiteScore 分^†	2.8分(
中位一审周期^‡	55 天

Digital Discovery 以数字化技术和自动化工具与基础科学的相互结合为重点，将囊括人工智能、实验自动化、机器人技术、数据库和先进数据分析等领域的创新成果。本刊发表的研究工作范围广阔，但需有坚实的化学基础，具体包括：

用于分子、材料和配方设计的人工智能与其它高通量计算方法；
先进的数据工作流；
创新的实验自动化；
“定向／加速进化”、“化学文库”、“加密化学”、“区块链加持的科学研究”等化学与其它学科的交叉领域。

作为一本金色开放获取的期刊，读者可免费获取论文的全文。

Editor-in-Chief

Alán Aspuru-Guzik
🇨🇦 多伦多大学

Associate editors

Jason E Hein
🇨🇦 不列颠哥伦比亚大学
Kedar Hippalgaonkar
🇸🇬 南洋理工大学
Linda Hung
🇺🇸 丰田研究所

Joshua Schrier
🇺🇸 福特汉姆大学
Cesar de la Fuente
🇺🇸 宾夕法尼亚大学

Editorial board members

Yousung Jung
🇰🇷 首尔国立大学
Anat Milo
🇮🇱 内盖夫本-古里安大学
Lilo D. Pozzo
🇺🇸 华盛顿大学（西雅图）

Ekaterina Skorb
🇷🇺 圣彼得堡国立信息技术机械与光学大学
Lee Cronin
🇬🇧 格拉斯哥大学

* 2023 Journal Citation Reports (Clarivate, 2024)

^† CiteScore 2023 by Elsevier

^‡ 中位数，仅统计进入同行评审阶段的稿件

欢迎联系我们发布论文报道
📧 RSCChina@rsc.org

点击下方「阅读原文」查看官网

↓↓↓

“AI 化”“自动化”“数字化”化学科研最新进展 ⦿ Digital Discovery 6 月号

2024 年 6 月号 ⦿ 现已上线

期刊介绍

Digital Discovery