Chem Rev｜人工智能和机器学习算法在结晶研究中的应用

2022年6月27日，来自杨森研发部结晶技术部门的Christos Xiouras和雅典国立技术大学化学工程学院的Georgios D. Stefanidis等人在Chem Rev杂志发表文章Applications of Artificial Intelligence and Machine Learning Algorithms to Crystallization。

本文首次全面介绍了人工智能和机器学习算法在结晶研究中的应用。

摘要

本综述首次全面介绍了机器学习和化学信息学在结晶研究中的应用。探讨了人工智能和机器学习作为一种新的、强大的手段，如何加速发现新的晶体结构，预测有机结晶材料的关键特性，模拟、理解和控制复杂的结晶过程系统的动态，以及促进涉及结晶材料的化学过程开发的高通量自动化。

本文批判性地回顾了这些新的、迅速崛起的研究领域的进展，提高了对诸如机器学习模型与第一性原理力学模型的衔接、数据集大小、结构和质量以及适当描述符的选择等问题的认识。同时，提出了在应用数学、化学和晶体学界面的未来研究方向。

总的来说，这篇综述的目的是增加工业界和学术界的化学家和科学家对这类方法和工具的采用。

1 简介

最近，计算能力的激增加上大量实验数据集的出现，使人们对人工智能和机器学习算法和技术产生了前所未有的兴趣。机器学习已被成功应用于大型高维数据集的高级回归、分类、聚类、特征提取和降维问题。

虽然数据驱动的ML技术在化学和生物学中已经应用了一段时间，但它们在制药相关的有机晶体材料和结晶过程中的应用是最近出现的一个重要领域。

在制药行业，大约80%的活性药物成分（API）是通过溶液结晶工艺生产的。

然而，尽管被广泛应用，结晶仍然通常被认为是一门艺术而不是一门科学，并且由于几个持久的基本科学和技术挑战，它在很大程度上仍然是经验性的。在化工行业“大数据”和数字化的时代，机器学习有望改变结晶过程的发展方式和发现结晶材料的方式。

基于机器学习的统计技术可以解决结晶工艺开发过程中广泛而多样的长期挑战。特别是，随着通过过程分析技术（PAT）对结晶进行实时原位监测的出现以及由此产生的大型高维数据集（例如，光谱或粒子图像的时间序列），基于机器学习的统计模型可以实时准确地描述结晶过程中无法实现的溶液和固态特性。输入输出 ML 模型还用于模拟和控制复杂的非线性结晶动力学，并将固体产品的关键质量属性与可调的过程输入参数相关联。在多态性和晶体结构预测（CSP）领域，机器学习和数据挖掘技术已被证明可以加速发现新的晶体材料（包括盐类、溶胶和共晶体）和结构，从而节省与劳动密集型实验固体形式筛选相关的巨大实验努力。此外，机器学习使用各种分子描述符作为输入，对控制晶体材料行为的特性（如溶解度和熔点）的计算机预测做出重大贡献。最后，在高通量实验中， ML分类和聚类与图像分析方法一起可以快速识别有希望的结晶条件，从而自动开发新兴的治疗方式。

本综述批判性地讨论了这些新兴研究领域的进展，旨在全面概述机器学习和化学信息学在结晶中的应用。

本文讨论了机器学习算法在结晶和晶体化学研究中的应用、优势和局限性。更具体地说，专注于过去五年中取得重大进展的以下领域：（a）用于从（过程）分析技术中提取高级特征的机器学习，（b）数据驱动的结晶建模和控制，（c）晶体材料物理化学性质的分类和预测（例如，溶解度和熔点）以及（共）晶体结构预测，（d）蛋白质和寡核苷酸等复杂有机分子的结晶倾向预测，（e）用于高通量晶体表征的机器学习驱动的图像分析，以及（f）包括剑桥晶体学数据库（CSD）在内的科学数据库中的数据挖掘。最后，对上述领域的未来研究机会和挑战提供了作者的观点。

2 机器学习算法在结晶中的应用概述

鉴于结晶中算法和应用的多样性，表1中给出了一个摘要，供快速参考。

表1结晶中的ML模型的主要优点、缺点和应用

3 数据驱动的结晶过程监测、建模和控制

监测、建模和控制工业结晶过程在制药和（精细）化学工业中至关重要。

结晶过程建模和控制的主要挑战是（a）对影响晶体成核和溶液生长的热力学和动力学因素的复杂相互作用缺乏足够的基本理解（例如，杂质和过程干扰的影响）;（b）不需要的次级机理的复杂性，例如与结晶平行的颗粒破碎和团聚;（c）结晶过程的高度非线性和随机动力学;（d）对与过程输入变量相关的基本晶体和溶液特性的实时知识不足。

最近，在开发精确的原位PAT方面取得了重大进展，通过实时监测生产过程中结晶过程中的关键工艺参数（溶液浓度、粒径、形状和多晶型），部分解决了最后一点。这些新功能为基于无模型和基于模型的高级反馈控制策略更好地理解、设计和自动化结晶操作开辟了途径。机器学习可以通过各种方式提供帮助。简而言之，机器学习从 PAT 中获取准确的信息（特征提取），以开发数据驱动的结晶过程模型，用于结晶过程的预测和模型预测控制（MPC）。

3.1 机器学习和过程分析技术（PAT）

与传统（通常是单变量）回归技术相比，与化学计量学相关的机器学习可以大大提高提取信息的准确性和质量。如，许多研究已应用标准化学计量学对傅里叶变换红外（FTIR）进行多变量校准。

最近研究人员还采用了先进的非线性机器学习进行光谱学研究。巴姆帕莱克西斯等应用ANN模拟在（基于聚合物的）共晶体配方框架中获得的拉曼和ATR-FTIR光谱，所采用的前馈反向传播ANN在确定每个共晶的正确组成方面比PLSR具有更高的精度，因为它的非线性性质适合多组分系统的在线监测和质量控制。

一旦有一个精心设计的训练数据集可用，机器学习就会揭示结晶监测中长期存在的问题。例如，由固体的存在引起的近红外光谱和拉曼光谱失真现在被认为可以捕获有关该过程的可利用信息。由遗传算法（GA）与SVM耦合的预测模型已被证明在监测NIR光谱的L-谷氨酸结晶方面是成功的。同样，邹等人采用SVR模型进行近红外光谱分析，以评估和预测含药粉末的活性成分。与PLS相比，该模型更胜一筹。

除了为光谱传感器构建校准模型外，机器学习还可用于推导出所需产品属性之间的数学关系，或组合不同PAT的输出以获得其他无法实现的目标属性。例如，ANN可以基于FBRM和PVM获得在线软传感器，并允许定量反馈控制，以将模拟的2D粒度分布（PSD）直接转换为弦长分布（CLD）和纵横比分布，这是晶体结晶的基本参数。

PAT工具可以改变结晶监测的游戏规则，因为快速数据采集和灵活的工作条件。为了充分发挥PAT方法的潜力，机器学习可以与拉曼光谱相结合。随着拉曼文库的不断扩展，这种PAT方法可能会变得更加强大。人们还可以设想在提取各种面的概率时使用贝叶斯推理方法来量化误差。

3.2 数据驱动的无模型和基于模型的结晶过程控制

工业结晶过程控制策略可分为基于模型的方法和无模型的方法。无模型结晶控制方法在各个尺度上都非常强大，并且很容易适用。尽管如此，由于他们没有利用对该过程的任何基本见解，因此他们依赖于启发式和专业知识。表2总结了最新的数据驱动结晶建模和控制研究。

表2 数据驱动结晶过程建模与控制文献研究综述

在所使用的各种建模技术中，ANN是最突出的。由ANN直接建立的复杂非线性输入/输出关系可以（更多）接近结晶过程输出。然而，在许多情况下，由于缺乏实验数据，PBM也被用来生成训练ANN所需的数据集。

除了ANN，其他数据驱动的模型也已成功出现。格里芬等使用弦数、晶体质量和过饱和度的在线测量作为训练数据，开发了一个基于局部加权约束最小二乘回归（LW-CLSR）的ML模型，用于循环溶解/重结晶过程，然后使用开发的模型来制定最佳控制策略，以便在定义的批次时间内生产目标平均尺寸的晶体。

将机器学习和机械方法相结合可以部分弥补前者的“黑匣子”特征，弥补它无法通过从第一性原理方法得出的洞察力，这通常以一定的计算成本产生更好的外推能力。

3.3 结晶过程中的机器学习和计算流体动力学

总体而言，现场的大多数ML应用程序都试图通过在CFD数据上训练ML算法来规避成本高昂的优化问题，以便在给定的设计空间内非常快速地评估输入条件对设备操作和结果输出的影响。

对于多相系统的空间相关仿真，可以通过CFD技术将PBM与动量平衡耦合来模拟过程。

4 结晶材料及其所得粉末理化性质的分类与预测

晶体材料物理化学性质的分类和预测在早期药物发现中至关重要。这种巨大的努力可以显着受益于机器学习方法，以处理许多特征（或描述符），从而得出目标属性的经验相关性。

图 9 显示了机器学习方法的主干原理图以及晶体特性估计方法的演变。

图9 分子和晶体数据性质估计计算工具的研究进展

不同的机器学习技术显示出了处理冗余或互连功能的不同能力。

4.1 溶解度

水溶性是药物化合物的关键特性，因为它与药物的生物利用度直接相关。对吸收、分布、代谢、排泄和毒性（ADMET）特性的评估在药物发现阶段起着核心作用，进而影响下一个开发阶段。

表3总结了有关类药物化合物溶解度预测的相关出版物的信息。

表3 通过机器学习方法预测水溶性

4.2 熔点预测

熔点是药物开发中的一个重要参数。

ANN的使用已被证明可以有效地预测蛋白质的热稳定性，只需先验其氨基酸序列。研究人员已采用ANNs来预测晶体的熔点和理想分子量的溶解度。机器学习技术也已应用于预测共晶体的物理化学性质。

4.3 利用量子力学进行晶体结构预测和性质估计

结晶专家经常面临这样的情况：不可预见的多晶型物出现在工艺开发的后期阶段，甚至在商业规模上，这在物理和监管复杂性、知识产权、项目预算以及最重要的产品质量方面带来了重大挑战。

因此，在药物的早期开发阶段，许多实验工作都集中在繁琐的固体形式筛选上，旨在发现和排列材料最合理的晶体结构的稳定性。

于是，药物结晶领域的一个持久雄心是计算机晶体结构预测（CSP），即，生成给定材料的预测晶体结构的稳定性排名列表，而无需冗长和劳动/成本密集型实验。然后，可以在可行的资源和项目时间框架内在早期阶段进行基于系统热力学的筛选，以更好地评估所涉及的风险，开发最稳定的形式以避免未来的障碍。

CSP的方法基于（i）基于第一性原理的从头全局优化，（ii）机器学习技术，以加快、支持决策制定，并在工作流程的中间步骤中对结果进行聚类，以及（iii）基于模板的元素替换。

图10概述了CSP工作流中的步骤。

图10 晶体结构预测（CSP）工作流程概述

4.4 过滤性、流动性、可压片性和最终产品杂项特性

过滤是结晶化下游加工中最常用的单元操作之一，用于将晶体与母液分离。晶体的粒径和形状分布以及可过滤性的定性关系长期存在。然而，一般的描述性量化仍然难以捉摸，部分原因是颗粒群和物理性质的复杂相互作用以及大量可能的颗粒描述符。

机器学习至少可以帮助缓解一些问题，例如，PCA和PLS可用于为给定的过滤应用选择输入变量，包括颗粒形状和尺寸描述符（及其比率），材料特定属性和过程变量（pH，压力）。回归模型（例如具有四个输入和只有五个隐藏节点的神经网络）可以通过合并标准分析模型中通常不包含的细粒度比率，将预测颗粒材料渗透率的平均绝对误差从40%降低到9%。

Barjat等人使用剪切单元、静态图像分析、表面积和100多种材料的表面能数据来训练径向基础SVM对流动函数系数值进行回归和分类。结果表明，测量特性与流动行为合理相关（R2在0.69和0.82之间），并产生了良好的流动性分类模型（ROC曲线下面积0.79–0.84）。

研究人员使用赋形剂和API的共处理和物理混合物来训练具有径向基函数和Kohonen神经网络的多层感知器。他们对这些属性进行了回归和分类，以建立片剂拉伸强度的预测模型。结果显示了评估属性的优异性能（皮尔逊相关系数>0.87），证实了机器学习在评估直接压缩过程方面的潜力。

5 预测有机化合物的结晶行为

任何药品的结晶能力和结晶结果与所有上游合成步骤一样重要。不幸的是，这些特征不能先验地直接设想，因此，基于经验数据和机器学习的预测可以代表寻求高效和省时的药物开发方案的飞跃。

ML方法可以帮助确定分子在特定条件下是否可以在特定溶剂中结晶。研究人员仅采用2D特征的SVM预测模型捕获结晶倾向，准确率为90%。

对与结晶倾向相关的单点突变进行系统研究可以极大地有益于蛋白质工程工作。据报道，使用原始蛋白质序列作为CNN的输入，无需对蛋白质序列的结构特征进行预处理，即可成功预测结晶倾向。

6 高通量材料发现和晶体表征

通过人工智能进行的自动化图像处理正在不同领域出现。产生大量图像的结晶过程可以从该领域的进步中受益匪浅。

通过机器学习对结晶结果进行分类可以代表过程监控和质量控制的巨大飞跃。大规模过程，如蔗糖结晶，已经使用深度卷积神经网络进行了晶体分类测试，达到了高水平的准确性，因此几乎不需要人类操作员的干预。

深度学习模型可以根据二维衍射指纹的晶格对称性成功地对晶体进行分类，即使在结构缺陷的高噪声数据中也是如此。

7 剑桥晶体学数据库中的数据挖掘

晶体材料的大量数据集可以在剑桥结构数据库（CSD）以及Butler等人列出的其他公开数据库中找到。

CSD提供了建立人工智能系统的可能性--从晶体学数据库的数据中提取相关描述符的知识。Shevchenko等人提出了这种方法的一个例子：一个射频模型被用来预测晶体维度和拓扑结构，该模型从知识数据库中填充了从CSD的配位化合物分析中获得的描述符。作者预计，类似的方法可以应用于许多问题，在这些问题上，知识数据库可以为科学家在晶体设计时提出的具体问题提供答案。

除了从大型晶体学数据库中获得的晶体结构外，结晶动力学也非常有价值。Maldonado等人正在从文献数据中建立一个晶体生长和成核的动力学参数数据库，并开发了一个分类模型来搜索模式。在对动力学参数进行分层聚类后，采用了一个RF模型对每组中的信息进行分类。基于与溶质分子描述符、溶剂、结晶方法和播种的关联，分类准确率在70%以上。

8 结论与展望

机器学习已成为结晶研究的宝贵工具，为工程师和科学家提供了利用数据应对长期挑战的新策略，包括有效监测、建模、控制和准确预测晶体材料的物理化学特性。不断提高的计算效率、易于适用（ML 模型只需几行代码即可训练）以及解决广泛问题的灵活性为研究、教育和应用提供了无与伦比的机会。

尽管机器学习很有用，但它本身不应被视为解决结晶中所有长期挑战的灵丹妙药。

算法的选择、模型架构的超参数、数据预处理技术选择更有利于应用的格式都不是显而易见的选择，都需要深入分析。此外，结晶的几个方面仍然是活跃的研究领域，机器学习不能完全弥补科学知识的缺乏。例如，小有机分子、盐、溶剂化物和复杂的大分子（例如蛋白质）的晶体结构预测算法仍然在不同程度上难以应对对DFT、构象灵活性、能量排名、电荷离域误差，以及捕获范德华相互作用的能力有限。机器学习算法无法超越原始训练数据的质量，并且仍然局限于最先进的第一性原理方法，尽管它们可以帮助以较低的计算成本探索CSP中呈指数增长的配置空间。

此外，即使使用实验数据进行训练，机器学习应用程序也可能变得过于特定于案例，无法（轻松）转移到不同的项目中，特别是考虑到新开发的药物的官能团和结晶行为的多样性。涉及过度训练、所需大量数据以及维度诅咒的问题比第一性原理方法更困扰机器学习。因此，重要的是将量子力学和结晶中的物理化学信息协同纳入机器学习方法以解决瓶颈（受物理学启发的机器学习模型）。例如，在机器学习方法中实施物理定律可以解决诸如如何处理不确定性和噪声数据等问题，并提高准确性，特别是对于多尺度和多物理场非线性问题。

算法本身同样需要以低计算成本实现高精度的最小监督，这是一个非常具有挑战性的开放问题。此外，集成学习方法提供了无数的组合来解决回归或分类问题，这提供了改进的空间。

总之，虽然机器学习的普及程度有所提高，但仍然存在进一步突破的障碍和机会，如下所述。

8.1 纳入已知的物理学/建立可解释的ML模型

在物理学信息或物理学启发模型的总体框架下，各种方法的混合组合可以基于物理学的模型的一致决策和推断能力与基于数据的高效计算模型连接起来，缓解知识和计算能力的限制，并推动预测的改进。如，物理信息神经网络通过将偏微分方程（包括整数微分方程）嵌入到神经网络的损失函数中来整合数据和数学物理模型，并形成具有增强预测能力的模型。

8.2 数据集的可用性

从算法的角度来看，解决传统ML中小数据集问题的可能方法是异常检测方法（对于高度不平衡的方法，如使用多变量高斯分布的异常检测）、数据生成/增强方法）、集合技术（bagging和boosting）等等。另一个有前途的工具是"元学习"模型。元学习方法构建的模型可以用有限的数据集快速学习一个新的任务；换句话说，人们使用一个已经训练好的ML模型，它解决了一个不同但相关的问题，可以采用/归纳到训练时间内从未遇到过的新任务。这个模型可以只使用少量的训练样本，但却能提高预测性能。

8.3 数据结构化和民主化

即使在有大量实验数据的情况下，由于与之相关的参数、元数据和系统特定的细微差别太多，人类似乎很难甚至不可能将其结构化或重新利用来建立跨化合物（或跨结晶系统）模型。利用以前收集的数据的可能性为快速开发结晶技术提供了新的机会，缩短了研发时间，并有望实现原本无法达到的科学见解。

8.4 数据集的一致性

在某些情况下，在使用数据之前可能需要进行热力学一致性检查。此外，溶质和溶剂的纯度以及亚微米级的颗粒大小也会影响溶解度。一旦在ML模型中使用，缺乏标记和双重检查会转化为低质量的数据和结果。同样，结晶动力学实验不仅需要清楚地表明所使用的动力学表达式，还需要表明如何表示过饱和度，因为所使用的表达式会改变基于方程的建模（如PBM）的参数估计。

8.5 高效预测的特征选择

特征的选择对于提高预测能力、降低计算成本和产生可解释的模型是至关重要的。在开发结合了简单性和低维度的强大的新描述符方面仍有很多工作需要做。晶体材料设计中的一个例子是Isayev等人展示的片段描述符的概念。在开发和探索不仅涉及溶质或溶剂特征，而且涉及它们之间的相互作用的描述符方面的更多努力，可能是显著改善特性和结晶行为预测的关键。

参考资料

Xiouras C, Cameli F, Quilló GL, Kavousanakis ME, Vlachos DG, Stefanidis GD. Applications of Artificial Intelligence and Machine Learning Algorithms to Crystallization. Chem Rev. 2022 Aug 10;122(15):13006-13042. doi: 10.1021/acs.chemrev.2c00141.

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。