【深度学习】基于功能提示的知识图谱增强分子对比学习

——背景——

深度学习模型可以准确地预测分子特性，并有助于更快、更有效地寻找潜在的候选药物。许多现有的方法纯粹是数据驱动的，专注于探索分子的内在拓扑结构和结构规则，没有任何化学先验信息。本文作者通过引入知识图谱，加入更多的化学元素和官能团知识，从而探索微观原子关联。提出了一种基于功能提示(KANO)的知识图增强分子对比学习方法，该方法利用外部基础领域知识进行预训练和微调。

——方法——

1、数据集

在预训练阶段，使用从ZINC15取样的250,000个未标记分子对KANO进行预训练，ZINC15是一个包含可购买的药物样化合物的公共访问数据库。在微调阶段，使用了来自MoleculeNet的14个基准数据集，包括678个二元分类任务和19个回归任务。这些数据集涵盖了广泛领域的分子数据，如药物、生物、物理和化学。

2、KANO的总体架构

在本文中，作者提出了一种新的基于功能提示的分子对比学习方法KANO，该方法由三个主要部分组成：(1)ElementKG的构建和嵌入，(2)基于对比的预训练，(3) prompt-enhanced的微调。

(1)ElementKG的构建和嵌入。作者在自己之前开发的化学属性KG上进行了进一步拓展，从而容纳更全面而有序的基础化学知识。它梳理了元素的类层次结构、数据属性和对象属性。此外，官能团的重要性及其与化学元素的密切关系，因此，从Wikipedia页面收集了有关官能团的相关知识，以使ElementKG更具信息性。图1a显示了ElementKG的快照，它由两个级别组成：实例级别和类级别，分别用红色和蓝色表示。具体表示如图1所示。为了全面挖掘ElementKG中所有实体、关系和其他组件的结构和语义信息，获得有意义的表示，作者采用了基于OWL2Vec*的KG嵌入方法。

图1：ElementKG的说明及其嵌入过程。

(2)基于对比的预训练。在获得ElementKG及其嵌入后将其纳入预训练中，以增强模型对基础领域知识的理解。预训练过程使用一种元素引导图增强方法来构建对比学习中的正对。如图2b所示，首先识别给定分子中存在的元素类型，并从ElementKG中检索它们相应的实体和关系，从而形成了一个元素关系子图。作者将子图中的元素实体节点连接到原始分子图中相应的原子节点，以创建一个增强的分子图，该分子图集成了基本的领域知识，并捕获了共享相同元素类型的原子之间的基本关联，即使它们没有直接通过化学键连接。在此基础上，采用对比学习框架通过最大化原始分子图和增广分子图之间的一致性来训练图编码器。

(3) prompt-enhanced的微调。预训练后，分子图编码器需要微调下游属性预测。具体来说，输入的分子图G被送入预训练的图编码器f(⋅)，以提取嵌入图的hG，然后将其送入预测器以输出属性值。为了弥合预训练对比任务和下游任务之间的差距，使用功能群知识作为提示来引导预训练的图编码器。如图2c所示，首先，检测输入分子中的所有官能团，检索其在ElementKG中的相应实体嵌入，并构建具有可学习嵌入的mediator，以捕获每个官能团的重要性。然后，将self-attention机制应用于mediator (红色)的嵌入和功能群实体的嵌入，以全面聚合其语义并获得功能提示。最后，将功能提示添加到输入分子图中每个原子节点的原始表示中，并使用可学习的尺度参数生成提示增强的分子图，然后将prompt-enhanced的分子图送入预训练的图编码器和预测器中进行分子性质预测。

图2：KANO概述。

——结果——

KANO提高了属性预测的性能。为了评估KANO的有效性，在生理学、生物物理学、物理化学和量子力学四类数据集上评估了它的性能。表1和表2给出了各种监督和SSL方法的结果。

总之，KANO在所有基准测试中都优于其他模型，证明了将ElementKG集成到预训练和微调阶段的有效性。KANO不仅优于其他SSL方法，而且还展示了其优于监督方法的优势，为推广到更广泛的化学领域提供了竞争优势。

比对分析。作者通过t-SNE可视化不同骨架分子的表示，以测试具有相同scaffold的分子是否具有相似的表示。具有不同scaffold的分子通常具有非常不同的化学性质。作者从每个数据集中选择7个最常见的scaffold (Tox21, QM7和BBBP)，并用不同的颜色区分。如图3a所示，KANO的Davies–Bouldin (DB)指数最低，产生了更独特的集群。

均匀性分析。为了检验学习到的分子表征的均匀性，图3b显示了模型和Tox21、ToxCast和ClinTox数据集上的三个基线学习到的分子表征的特征和密度分布。在前三列中，表示的分布相对高度聚集，具有尖锐的密度分布。在最后一列中，分布变得更加均匀，密度估计曲线明显不那么尖锐。这显示模型可以将具有相同scaffold的分子映射到相似的表示，并且预训练的表示比基线具有更均匀的分布。这说明了ElementKG和KG-guided的对比学习框架使KANO能够捕获全局内在分子特征。

图3 ：对比与均匀性分析

功能性prompts可解释的预测。从图4的四个性质类别中可视化了分子图中官能团的注意权重。比如第一个例子来自Tox21公共数据库，该数据库测量化合物的毒性。吡啶基和偶氮官能团的attention weights较高，其次是伯胺。有趣的是，吡啶和伯胺基团可以结合形成2,6-二氨基吡啶，这是继发性肝毒素和皮肤致敏剂的主要成分。含偶氮化合物，如偶氮染料，具有致癌性和诱变性。可解释性探索说明了功能提示如何通过调用来弥合预训练任务和下游任务之间的差距，通过从分子性质预测任务的角度了解相关官能团。

图4：功能性prompts的可解释性研究。

——总结与讨论——

作者提出了KANO，一种通过结合化学领域知识来增强分子性质预测任务的新方法。通过利用ElementKG， KANO在14个分子基准上取得了卓越的性能。虽然KANO表现出了良好的性能，但它可能仍有一些局限性。例如，ElementKG可能无法完全捕获分子系统的复杂性，并且当前的功能提示可能无法捕获子结构之间的远程相互作用。为了解决这些限制，作者提出了几个有趣的未来方向。首先，扩展ElementKG以涵盖化学的其他领域，并将其与其他现有的KG相结合，可以提供对分子系统更全面的理解。其次，研究KANO学习表征的可解释性和功能提示捕获的化学知识可以为分子设计和优化提供见解。最后，探索将KANO与其他技术相结合的可能性，以提高其在小数据集上的性能并加速药物发现，这可能是一个有希望的方向。

参考文献：

[1] Fang Y, Zhang Q, Zhang N, et al. Knowledge graph-enhanced molecular contrastive learning with functional prompt[J]. Nature Machine Intelligence, 2023: 1-12.

作者：陈佳晓

审稿：朱金涛

编辑：黄志贤

GoDesign

ID：Molecular_Design_Lab

（扫描下方二维码可以订阅哦！）