Drug Discov Today | 分子表示与性质预测中的深度学习方法

2022年9月24日，青岛大学计算机科学技术学院李臻教授团队在Drug Discovery Today上发表文章“Deep learning methods for molecular representation and property prediction”。在论文中，作者回顾并总结了现有的分子表示与性质预测的深度学习方法，并讨论了深度学习方法在分子表示和性质预测方面的挑战和机遇。

1 摘要

随着人工智能方法的进步，计算机辅助药物设计（CADD）近年来发展迅速。有效的分子表示和准确的性质预测是CADD工作流程中的关键任务。在这篇综述中，作者总结了当前深度学习（deep learning）方法在分子表示和性质预测方面的应用。作者根据分子数据的格式（1D、2D和3D）对深度学习方法进行了分类。此外，文中还讨论了一些常见的深度学习模型，如集成学习和迁移学习，并分析了这些模型的可解释性方法。作者还着重研究了深度学习方法在分子表示和性质预测方面的挑战和机遇。

2 介绍

分子性质是许多领域的重要因素，包括化学、药物发现和医疗保健，且与量子力学、物理化学、生物物理、生理学等相关。计算机辅助方法能够快速预测分子性质，在具体实验开始前提供感兴趣分子的总体情况。这些方法被称为定量结构-活性关系（quantitative structure-activity relationship, QSAR）或定量结构-性质关系（quantitative structure-property relationship, QSPR）模型。此外，随着机器学习方法的发展，分子性质预测的准确性和速度也得到了提高，加速了其他相关应用，如药物-靶点亲和力预测和分子合成预测。特别是，作为机器学习的一个重要分支，深度学习方法受到了极大的关注。这种方法可以更精确地发现分子的结构与性质之间的关系。

要研究分子性质的第一个问题是，如何表示一个分子。作者将分子表示方法划分为3类，1维表示、2维表示和3维表示。如图1所示，作者展示了药物imatinib mesylate的三种表示形式。

图1 药物甲磺酸伊马替尼（imatinib mesylate，化学式：C30H35N7O4S）的1D、2D和3D表示。(a) 对于1D表示，图中展示了多种表示形式，包括SMILES、extended connectivity fingerprint (ECFP)、molecular access system (MACCS) fingerprint，和一些数学表示方法。(b) 对于2D表示，分子图可以被表示为两个矩阵，即邻接矩阵和特征矩阵。右边的分子图像(由RDKit生成)是另一种2D表示形式。(c) 图中展示了两种3D表示方法：一个3D分子图和一个3D分子网格表示(由PyMOL生成)。

3 深度学习方法

根据表示分子的形式不同，作者将深度学习分为8类：

基于序列的方法
基于图(graph)的方法
基于图像(image)的方法
基于3D图(3D graph)的方法
基于3D网格(3D grid)的方法
基于混合数据的方法和集成学习
迁移学习、多任务学习和元学习
分子性质预测中可解释的深度学习方法

下面分别介绍这些方法。

3.1 基于序列的方法

SMILES是描述分子最直接、最简单的方法。它类似于自然语言，其中每个原子都是句子中的一个词。鉴于自然语言处理（natural language processing, NLP）领域的快速发展，NLP方法可以应用于SMILES序列的嵌入。作者接着总结了研究者开发的多种基于序列的方法，包括：数据增广方法、卷积神经网络方法、循环神经网络方法、子结构学习方法和基于序列的自监督学习方法等。图2也展示了基于SMILES的两种类型的自监督学习方法。

图2 基于SMILES的不同类型的自监督学习（self-supervised learning）方法。(a) 基于transformer(BERT)的双向编码表示。SMILES序列被用作输入，并随机mask一些原子。然后训练语言模型来预测这些被mask的字符，进行表示学习。(b) 基于翻译模型的方法。该模型将输入的SMILES序列变换为另一种类型的序列。编码器编码的隐特征被用作分子表示。

3.2 基于图的方法

图是一种更直接的结构，可以存储和表示大多数结构信息。在图模型中，原子被表示为节点，化学键被表示为边，每个节点都有自己的特征。在图数据的帮助下，分子内的结构信息可使用GCNs提取。GCNs能够捕获有关连接节点之间关系的信息。一般来说，GCN有两种类型：空域卷积和频谱卷积。前者通过在空域中使用特定的消息传递规则收集相邻节点的信息来更新每个节点的特征。后者通过对拉普拉斯矩阵进行特征值分解，将图数据转换为谱域提取特征。接着，作者回顾了领域内的相关方法，包括谱域GCN模型、空域GCN模型、基于树的方法和基于图的自监督学习方法等。图3展示了基于图的三种不同类型的自监督学习方法。

图3 使用图的不同类型的自监督学习方法。(a) 对比自监督L：使用数据增强方法，如对正样本对的节点drop、边drop和子图替换，而对负样本对随机选择其他增强图。(b) 生成自监督：通过编码器-解码器模型重构输入，以获取用于表示的隐特征。(c) 预测自监督：随机mask一些节点或边，让模型预测结果；通过这样做，该模型能够学习到隐特征并生成有效的分子表示。

3.3 基于图像的方法

深度学习方法在图像处理领域取得了巨大成功，这也为QSAR/QSPR的研究奠定了基础。更具体地说，分子可以转换成图像，因此传统的深度学习模型可以用于QSAR/QSPR任务，其中CNN是最广泛用于分子特征提取的。

对于基于图像生成的方法，最简单的方法是直接使用分子图像，其可以通过RDKit和Open Babel等软件进行转换。然而，这种类型的图像引入了一个很大的空白区域，没有有效的信息。此外，尺度敏感性是另一个问题，因为所有分子都被转换成相同大小的图像。由于整个分子图像的固定大小，相同原子/结构的大小在不同的分子中是振动的。作者回顾了相关试图避免这个问题的图像生成方法。

3.4 基于3D图的方法

分子的构象通常包含分子的原子3D坐标，也称为几何数据，可以为分子性质预测提供额外的空间信息。首先要解决的问题是三维分子晶体数据集有限。为了扩大基于几何的方法的应用领域，可以基于二维数据生成构象。RDKit中的MMFF94可用于构象生成。此外，哈密顿神经网络也可以用来预测分子构象，并将预测的三维坐标输入到基于MPNN的分子指纹生成器中用于分子表示。

3.5 基于3D网格的方法

3D网格是另一种使用分子几何数据的表示方法，它将每个原子放置在一个或多个网格中。事实上，蛋白质等大分子可以用3D网格更好地表示，在MPP中仍然表现出良好的性能，特别是在某些量子力学特性方面。3D CNN是3D网格数据的最佳选择；因此，为3D CNN创建一个功能更强大、信息更丰富的网格可以提高分子性质预测的性能。

3.6 基于混合数据的方法和集成学习

上前文所述的1D、2D和3D表示方法以不同的方式呈现分子，将它们结合起来可以提供分子的多视图。作者回顾了结合多种表示方式的方法，并且总结了集成多个模型的集成学习方法。

3.7 迁移学习，多任务学习和元学习

实验数据集的不足是MPP中的另一个问题。作者建议使用迁移学习、多任务学习和元学习来克服这个问题。对于迁移学习学习，模型首先针对某些辅助任务在大数据集上进行训练，从而学习分子的一般表示。然后将所学到的一般表示法用于下游任务（通常具有有限的样本），以传递先验知识。多任务学习可以同时训练所有任务并共享表示，以提高预测的泛化能力。近年来，出现了元学习方法来解决少样本问题，也称为“学习如何学习”。在训练过程中，元学习将训练数据集划分为不同的元任务，学习初始化良好的模型参数，具有很强的泛化能力。通过对新任务进行少量梯度下降来更新模型，以提高模型的性能。

3.8 分子性质预测中可解释的深度学习方法

深度学习最有争议的领域是其可解释性。可解释的深度学习方法分为两类：被动和主动。被动方法使用深度学习模型中的参数进行解释，而主动方法改变训练过程以提高模型的可解释性。

4 分子性质预测的挑战和未来的工作

作者还讨论了五方面分子性质预测的挑战或未来的工作，包括：

3D数据上的自监督学习方法
使用经验的图卷积方法
1D、2D和3D数据融合和选择方法
元学习
分子性质预测中深度学习模型的可解释性

5 总结

在这篇综述中，作者综述了多种类型分子数据的深度学习方法以及新兴的方法，包括迁移学习、元学习等。此外，作者还讨论了深度学习模型中分子的可解释性方法。使用深度学习方法在药物发现方面取得了重大进展。然而，提高分子表示和性质预测的性能、鲁棒性和可解释性仍然面临着更多挑战。

参考资料

Zhen Li, Mingjian Jiang, Shuang Wang, Shugang Zhang, Deep learning methods for molecular representation and property prediction, Drug Discovery Today, 2022, 103373, ISSN 1359-6446, https://doi.org/10.1016/j.drudis.2022.103373.

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或

姓名-学校-职务/研究方向。