Nat. Chem. Biol. | 临床前药物发现中的机器学习

DRUGAI

今天为大家介绍的是来自Jonathan M.Stokes团队的一篇论文。药物发现和开发过程耗时费力、成本高昂。这些项目可能需要超过12年时间，花费高达25亿美元，而且失败率超过90%。机器学习（ML）为改进药物发现过程提供了机会。确实，随着公共和私人大型生物和化学数据集的日益增多，ML技术正逐渐成为增强传统药物开发过程的有用工具。在本文中，作者讨论了在药物发现的临床前阶段中整合算法方法。具体来说，作者重点介绍了在各种疾病领域中基于ML的努力，以加速初始命中发现、作用机制（MOA）阐明和化学性质优化。随着ML在各种治疗领域的应用进展，作者认为完全整合ML的药物发现流程将定义未来的药物开发项目。

药物发现是一个耗时且容易失败的过程，需要大量的资金投入和专业人力资源。新药的发现和开发成本可能超过25亿美元，需要12到15年的持续努力。对于学术机构和制药公司来说，实验流程是相似的：在生物靶标识别和验证之后，通常（但不总是）通过高通量筛选（HTS）化学库找到化学抑制剂。这些化学筛选中的命中化合物会进一步研究其作用机制（MOA）阐明、结构-活性关系和体内有效性。然而，这种传统方法的候选化合物从一期临床试验到市场批准的失败率约为90%，如果考虑到发现的临床前阶段，失败率会更高。确实，临床试验数据表明，即使在开发的后期阶段，高失败率也可以归因于缺乏商业需求和不良的战略规划（约10%）、药物性质不足（约15%）、不可接受的毒性（约30%）和临床疗效不足（约50%）。因此，迫切且未满足的需求是提高药物发现和开发过程的效率并降低成本。

在过去的几十年里，人工智能（AI）技术在解决紧迫的现实世界挑战方面得到了显著应用。这得益于各种直接适用于不同数据类型的机器学习（ML）技术的发展。一般来说，这些算法使用统计技术，从输入数据集中学习，以预测新数据，而无需编写明确的规则。重要的是，随着训练数据的质量和数量增加，这些方法的性能会自然提升。因此，ML方法非常适合解决涉及大型数据集、具有非明显且复杂关系的许多变量的问题，这在药物发现和开发过程中经常出现。确实，随着复杂化学和生物数据集的不断积累，ML技术在最大限度利用这些数据集方面具有独特优势，特别是在训练数据最丰富的临床前阶段，这些技术可以更全面地实现药物发现流程的自动化。

令人振奋的是，学术实验室和制药公司越来越多地在药物开发的每个临床前阶段实施机器学习（ML）技术。因此，这些团体也投入了大量资源用于生成支持ML整合药物发现方法的数据集。在本文中，作者概述了各种ML方法在小分子治疗药物的临床前药物发现中的应用，涵盖多个疾病领域（图1）。作者将本文分为三个药物发现步骤：1、命中识别（hit identification）；2、作用机制阐明（MOA elucidation）；3、转化研究（translational investigations）。作者的目标是强调ML在药物发现中日益增长的影响，并促进其在不同治疗领域的端到端自动化药物发现流程中的广泛应用。

图 1

命中识别中的虚拟筛选

高通量筛选（HTS）通过将大量化合物集与靶蛋白或全细胞培养物进行测试，一直是药物发现的关键途径。然而，这种方法成本高且耗时，通常需要数周或数月才能筛选出105到106个化合物，并且仅能找到少数具有治疗潜力的化合物。机器学习（ML）指导的虚拟筛选提供了一种有前景的替代方法，通过使用机器学习模型快速在计算机上评估化合物，使得能够高效地探索比HTS所能探索的化合物库大得多的化合物库。

图 2

更具体地说，深度定量构效关系模型（QSAR，使用深度学习模型量化结构-活性关系）的出现，提高了大型化学库的虚拟筛选效果。值得注意的是，深度学习在分子特征化方面产生了重大影响。传统上，分子以固定的表示形式呈现给机器学习算法，如指纹向量，这些向量表示分子子结构的存在或不存在。然而，这些表示形式往往无法捕捉分子连接的上下文细节，并且在模型训练期间不能进行调整，以更好地适应当前的预测任务。

为了融入任务和情境感知的分子嵌入，之前的研究使用定向消息传递神经网络（D-MPNN）来发现针对大肠杆菌和鲍曼不动杆菌的新型抗生素（图2a）。D-MPNN通过为分子图中的每个节点（原子）和边（键）初始化一个向量，然后通过一系列消息传递步骤基于周围的化学环境更新这些向量。在这两项研究中，模型基于二值化的抑制病原体生长数据进行训练。然后，使用这些模型对药物再利用中心的一组约7000种具有良好毒性和药代动力学特性的化合物进行预测。结果分别发现了halicin（大肠杆菌最低抑菌浓度（MIC）≈ 2 μg/ml）和abaucin（鲍曼不动杆菌MIC ≈ 2 μg/ml）。值得注意的是，这两项研究表明，与传统的高通量筛选方法相比，优先选择得分最高的分子可以显著提高体外命中率。

与其依赖表型化学筛选作为训练数据，不如利用蛋白质-配体对接来根据化合物与目标蛋白的预测结合亲和力进行筛选。然而，当应用于超大型化学库时，基于物理的对接算法需要将每个分子对接到感兴趣的蛋白质上，这非常耗时且需要大量计算资源（通常超过1000个CPU和GPU）。因此，开发了Deep Docking来增强针对超过十亿分子的化学库的基于对接的虚拟筛选，将传统的对接技术与深度学习结合，以加速虚拟筛选过程（图2b）。最初，Deep Docking从虚拟库中取出约1%的分子，并使用传统方法对其进行对接。这些对接评分用于训练前馈神经网络（FFNN），从而能够快速预测化学库中其余分子（约99%）的对接评分。例如，Deep Docking用于筛选ZINC15数据库中的13亿个化合物，针对严重急性呼吸综合征冠状病毒2（SARS-CoV-2）的主蛋白酶（Mpro）。随后在实验室的验证中，发现了一类新的针对Mpro的化合物。基于对接的虚拟筛选仍然存在一些限制。例如，用于训练模型的属性标签是通过计算机对接算法生成的，这些算法的准确性会根据配体和蛋白质的结构以及对接软件的参数化而有所不同。确实，缺乏真实标签可能会在模型的后续预测中引入误差。

命中识别中的分子生成

除了对虚拟化学库进行虚拟筛选外，还可以通过生成式深度学习方法进一步扩展生物活性分子的化学搜索空间。参考而言，可以合理进行虚拟筛选的化学库的上限规模约为数十亿，而药物化学空间则估计超过个分子。确实，生成模型使得探索当前开源化学库尚未涵盖的化学空间未知领域成为可能。

自2018年一项具有里程碑意义的研究展示了变分自编码器（VAE）的有效性以来，VAE已被广泛应用于分子设计任务。简而言之，VAE由两个神经网络组成：一个编码器和一个解码器。在训练过程中，编码器学习将分子压缩到一个连续且低维的嵌入空间（潜在空间），而解码器学习从这个潜在空间重构分子。在采样过程中，不需要编码器，解码器可以自由地从潜在空间中采样。重要的是，可以控制这个过程，使解码器系统地针对潜在空间中的区域，提高生成具有所需特性的新分子的概率。

图 3

VAE模型的后续应用展示了其在临床前药物设计中的实用性。例如，基于JT-VAE模型的JAEGER用于设计新型抗疟药化合物（图3a）。作者将性质预测组件与JT-VAE模型整合，共同训练用于分子编码和解码以及抗疟活性优化（疟疾增殖实验中半数抑制浓度的负对数值（pIC50））。在采样过程中，模型反复探索潜在空间中的新分子，只保留那些超过某个预测活性阈值的分子，最终获得了两种对恶性疟原虫3D7株具有纳摩尔级活性且肝细胞毒性低的分子。

最近，归一化流和扩散模型在新药设计中的应用逐渐受到关注，因为它们在其他领域（如图像和文本生成）中取得了成就。与VAE类似，归一化流模型定义了从复杂分布（即可观测分子）到简单分布的转换，反之亦然。根本区别在于，归一化流模型使用可逆转换在简单分布（潜在空间）和复杂分布（观测空间）之间进行转换，便于精确计算样本的可能性，以评估生成数据的质量。相比之下，VAE依赖近似可能性，引入了生成过程的不精确性。

例如，GraphAF是一种基于流的模型，它以自回归方式生成新分子，在每个时间步生成新节点并根据当前子图将它们连接起来（图3b）。GraphAF还将强化学习纳入其自回归生成过程中，根据特定属性（如辛醇-水分配系数（log(P)）和药物相似性的定量估计（QED））对每一步进行奖励。GraphAF在生成独特且有效的分子方面表现出与JT-VAE、基于SMILES的循环神经网络（RNN）生成器和基于图的强化学习技术的竞争力，并在优化log(P)和QED方面优于这些模型。

扩散模型的运作方式稍有不同。首先，通过一个加噪过程（前向扩散）迭代地以固定且不可训练的方式向样本添加高斯噪声。随后，模型通过逐步去噪（逆向扩散）训练，以逐步去除小部分噪声，直到恢复原始样本。相比于将潜在空间转换为样本的单步解码过程，扩散模型的逐步去噪过程具有优势。扩散模型的迭代特性提供了逐步改进样本的机会，从而得到更精细的样本。

2022年，开发了一种新的等变扩散模型，用于在三维（3D）空间中生成新分子。在这种模型中，分子被表示为一组原子特征和坐标，指示它们在3D空间中的位置。在扩散过程中，噪声以逐步方式添加和去除，最初破坏分子，然后恢复其原始形态。重要的是，逆向扩散过程可以进行条件设置，使生成的分子在某些感兴趣的属性上得到优化。作者强调了其模型在创建满足物理化学目标（如极化率和热容）的3D分子时，能够整合属性信息的能力。此外，该模型在生成有效且独特的分子方面优于先前的VAE和基于流的模型。然而，当在包含较大、类药化合物的数据集上测试时，模型在生成稳定分子方面存在困难，表明其在新药设计中的应用有限。

命中识别中的化学语言模型

基于字符串的分子表示形式，例如SMILES，使得利用化学语言模型（CLMs）进行新分子设计成为可能。CLMs可以在大量具有理想性质的分子字符串集合上以自监督方式进行训练（例如已知的生物活性化合物），旨在识别和学习训练序列中常见的标记模式。一旦训练完成，模型可以自回归地生成新的化合物，这些化合物在物理化学性质分布上与训练集中的化合物非常相似。传统上，CLMs的一个主要问题是需要大量的训练集，数量级在几十万到几百万个化合物，才能可靠地学习（1）有效的分子字符串语法和（2）相关的物理化学性质。考虑到许多治疗领域数据稀缺，这限制了CLMs在药物设计中的应用。

图 4

为了解决这一问题，迁移学习被用于设计新型先导化合物。在此过程中，模型首先在数据不受限制的相关任务上进行预训练（例如大型药物库）。随后，可以冻结神经网络中的初始层以保留预训练的信息，并对末端层进行微调，使用特定于目标任务的有限数据。这种方法将生成过程偏向于目标任务。该方法被用于生成PI3Kγ的新型配体，PI3Kγ是一种抗癌、抗炎和免疫调节药物靶点（图4a）。作者预训练了一种长短期记忆神经网络（LSTM），这是一种RNN，使用来自美国专利数据库的大约85万个SMILES代码，并在46种已知的PI3Kγ抑制剂上进行微调。在生成了超过100万个新的SMILES字符串后，他们使用分类模型对这些字符串进行优先级排序以进行合成。在生成的分子中，他们选择了两种被分类器高度自信预测的分子以及四种结构类似物进行合成。所有六种化合物在体外均表现出纳摩尔级的PI3Kγ活性。

自然语言处理领域在发布Transformer模型后发生了重大变化。与基于RNN的模型相比，Transformer模型通过启用并行处理加速训练，捕捉序列中的长期依赖关系，并通过注意力层提供一定的可解释性。基于生成预训练Transformer（GPT）模型的MolGPT是第一个在序列建模任务中利用这种模型的研究（图4b）。与其他生成模型相比，MolGPT在多个基准测试中显示出竞争力，如独特性、有效性和新颖性。此外，为了引导生成的分子具备特定的分子属性或骨架，MolGPT在起始标记的同时传递一个包含感兴趣属性（例如计算的log(P) (clog(P)）或所需骨架的条件向量，使其生成满足这些条件的新SMILES代码。事实上，MolGPT在单一和多属性优化任务以及骨架约束生成任务中表现出色。重要的是，MolGPT通过显著性图展示了Transformer的可解释性，突出显示了哪些SMILES标记在模型的决策过程中占据更大权重。这种可解释性对于建立对模型学习化学和生物相关特征能力的信任至关重要。

作用机制阐明中基于多序列比对的蛋白质结构预测

在发现活性化合物之后，详细了解其生物功能的机制至关重要。在细胞筛选的背景下，阐明作用机制（MOA）需要全面且多样的方法，包括基因方法（如基因组规模的化学基因筛选）和直接的生化方法。这些实验室方法通常通量低且资源密集。作为替代，结合深度学习技术与现有的大规模数据库（PDB）可以帮助确定新型生物活性分子的功能。这种方法有望简化MOA的阐明过程，并增强基于结构的分子优化。

图 5

AlphaFold (AF2) 在从初级氨基酸序列预测蛋白质的三维结构方面取得了突破。在第十四届两年一度的CASP挑战中，DeepMind的AF2达到了最佳预测模型的准确性。尽管同源建模和AF2都使用多序列比对（MSA），AF2独特之处在于利用了与目标蛋白同源的序列中的共进化信息。AF2接受目标蛋白的输入序列，并生成MSA和对偶表示（图5）。这里的MSA矩阵是将输入序列与同源序列进行比对，而对偶表示是已知同源物的氨基酸之间的成对距离矩阵。这些表示被输入到Evoformer，一个双轨神经网络中，共同嵌入残基之间的空间和进化关系。最后，结构模块利用主链框架以及更新后的MSA向量和对偶表示生成预测的三维结构。主链框架是一个附加输入，将每个残基表示为一个等变三角形，其节点分别对应于Cα、羧基的C原子和氨基的N原子。利用这三个输入，结构模块预测每个主链框架的相对旋转和平移，从而获得蛋白质中所有原子的三维位置。

AF2已经在结构生物学和药物发现领域展示了其实用性。例如，之前的研究使用基于组学的深度学习模型PandaOmics筛选出可以通过AF2预测结构的肝癌治疗候选药物。在这里，基于AF2预测的结构，使用Chemistry42生成小分子并进行实验验证。这种方法使得发现了一种对细胞周期蛋白依赖性激酶20（CDK20）具有活性的小分子，该激酶在许多肿瘤中常常过度表达，其Kd为8.9 ± 1.6 μM。事实上，这些工作作为概念验证，展示了AF2的潜在实用性，因此值得进一步探索其在AF2支持的基于结构的药物设计中的应用。然而，鉴于其已知的局限性，确实存在AF2模型不足以提高基于结构的药物设计和/或优化准确性的情况。

作用机制阐明中蛋白质对接和计算机设计

图 6

DiffDock是一种将分子对接框架化为生成建模问题的扩散生成模型（DGM）。如前所述，DGM通过将采样噪声传递给学习到的去噪神经网络生成新数据。在这里，DiffDock完成配体平移、配体旋转和扭转角变化的扩散过程。接下来，基于点云的SE(3)等变卷积神经网络架构的评分和置信度模型预测坐标并对结合构象进行排名，选择DiffDock的top-1预测，即置信度最高的预测（图6a）。除了top-1预测，DiffDock还提供top-5和top-10的多样化预测。作者在超过17,000个蛋白质-配体PDBbind复合物上训练了他们的模型。在40个结合构象的top-1预测成功率上，DiffDock的准确性优于当前最先进的基于搜索、商业和深度学习的方法。对于药物发现应用，如虚拟筛选或蛋白质靶点的反向筛选，准确且高速的性能至关重要。来自常见MOA方法的实验数据，如抗性筛选和亲和层析，表明蛋白质靶点可以在计算机模拟中使用DiffDock进一步支持（或挑战）这些数据。

扩散模型最近也被应用于蛋白质设计任务。然而，这些初步尝试在生成能折叠成预测结构的序列以及验证蛋白质的可合成性或功能性方面面临挑战。基于DGMs并在RoseTTAFold基础上开发的RoseTTAFold扩散模型（RFdiffusion）是一种能够根据明确规格设计功能性蛋白质的生成模型（图6b）。RoseTTAFold的结构预测网络经过微调，成为扩散模型的去噪网络。与RoseTTAFold需要输入氨基酸序列不同，RFdiffusion接收扩散后的主链框架（坐标和方向）。为了生成具有特定条件的蛋白质，如对称性、结合靶点、功能基序或对称功能基序，模型会接收辅助条件信息。在这些输入的基础上，模型对主链坐标进行去噪并预测一个可合成的蛋白质结构。作者在包括PDB和AF2结构模型在内的多样化数据集上训练了RFdiffusion。特别值得注意的是，RFdiffusion是一个经过实验验证的生成模型，能够设计满足不同属性的多种蛋白质。实验验证表明，RFdiffusion可以生成具有任意所需对称性的高阶架构可溶性蛋白质。

转化研究简介

在临床前药物发现的后期阶段，一个主要目标是将有前途的分子优化成更可行的药物候选物。传统上，从初步命中化合物到候选化合物的优化包括详细的结构-活性关系研究，其中优先化合物的核心子结构被修改，并评估由此产生的生物活性变化。这些结构修改使得能够优化溶解度、ADMET（吸收、分布、代谢、排泄和毒性）特性、效力和靶点特异性等属性。这些属性不仅在初始候选物优化过程中考虑，而且在后期临床前开发中被仔细监控。

可以实施机器学习算法来预测分子的类药特性和毒性，从而使临床前研究更好地定位药物候选物以在临床试验中取得成功。实际上，使用机器学习指导的多属性优化方案可能是理想的选择，以便在发现过程的早期考虑临床特性，而不仅仅是作为基于生物活性选择药物候选物的优化手段。应用一组机器学习模型来对期望的生物活性、毒性和其他类药特性进行重叠预测，可能使研究人员在命中选择过程中优先考虑有利的临床特性，即使相关分子未必是对目标最有效的。

转化研究中的溶解性预测

从20世纪90年代到2017年，由于药物性质不佳而导致临床试验失败的药物候选物比例从30-40%下降到10-15%。这可以归因于发现了与良好药代动力学行为相关的化学性质，即Lipinski的五规则。Lipinski规则之一涉及脂溶性，可以通过log(P)量化。log(P)是膜透过性、溶解度、生物利用度和代谢稳定性的一个重要决定因素。测量log(P)的实验方法，包括摇瓶慢搅拌法，通常耗时且费力。clog(P)是一种计算方法，用于估算log(P)，通过将分子片段的定义常数相加并用分子间相互作用的修正因子替代。自20世纪80年代以来，clog(P)一直是最常用的脂溶性估算指标；然而，它在某些结构特征上存在局限性，并在相似分子之间存在系统误差。在药物发现的背景下，这些小的系统误差可能决定一个化合物是否会进一步研究，突显了精确计算log(P)的重要性。为克服这些挑战，机器学习方法应运而生，以提高log(P)预测的准确性。

最近的一项研究训练了四种机器学习架构（支持向量机（SVM）、多层感知器（MLP）、XGBoost和RoseTTAFold），根据分子描述符和液相色谱保留时间预测分子的log(P)和log(D)（分配系数）值，液相色谱保留时间与log(P)和log(D)相关。模型在METLIN小分子保留时间数据库中的2,070种化合物上进行了训练，这些化合物的log(P)值可从ChEMBL数据库中获得。分子被表示为125个特征的RDKit向量，液相色谱保留时间作为一个附加特征连接。基于平均绝对误差，MLP是表现最好的模型。与不包括保留时间作为特征的现有log(P)预测模型相比，MLP将误差率降低了20-30%。然而，尽管包括保留时间可以提高性能，但添加这一特征可能不广泛适用，因为它需要收集实验数据。

转化研究中的毒性预测

图 7

毒性是导致30%药物候选物在临床试验中失败的原因，其中大部分归因于人类ether-à-go-go相关基因（hERG）结合及相关的心血管毒性。在2023年的一篇论文中，研究人员训练了一系列机器学习算法来预测hERG毒性（图7b）。作者收集了一个包含4,556种化合物及其使用膜片钳技术测定的hERG通道IC50值的数据集。数据通过双重阈值进行二值化，IC50值低于1 μM的化合物被视为hERG阻断剂，而IC50值高于10 μM的化合物被视为非阻断剂。研究人员使用四种不同的分子表示法训练了k近邻算法、SVM、RoseTTAFold和MLP，分别是Morgan指纹、AtomParis指纹、MACCS键和TopoTorsion指纹。作者还训练了一个图卷积神经网络，通过每个分子的图表示来学习特征。基于接收者操作特性曲线下面积，图卷积神经网络是表现最好的模型。尽管这些模型可能在药物发现早期阶段评估hERG阻断方面有用，但作者并未对其模型的预测能力进行新的化合物实验验证。

2023年，ADMET-AI发布了：这是一个用于预测分子ADMET性质并将其与已批准药物进行比较的互动式机器学习平台。作者在治疗数据公共库（TDC）的41个ADMET数据集上训练了两个多任务Chemprop-RDKit模型：一个回归模型训练于10个TDC回归数据集，另一个分类模型训练于31个分类数据集。ADMET-AI作为一个网络界面发布，用户可以输入SMILES并接收关于溶解度、口服生物利用度、毒性和hERG安全性等方面的预测。ADMET-AI还基于输入分子在DrugBank分子中各预测性质的百分比，将输入分子与DrugBank的参考药物进行比较，帮助用户解释模型预测结果。

由于伦理限制，大规模获取临床毒性数据存在困难，预测毒性的一个主要挑战是模拟体外、体内和临床毒性数据之间的多方面关系。最近的一篇论文通过训练前馈神经网络（FFNN）解决了这个问题，使用了体外、体内和临床毒性数据（图7c）。作者从Tox21挑战赛中收集了体外毒性数据，从化学物质毒性效应登记处数据集中收集了体内毒性数据，并从MoleculeNet的ClinTox数据集中收集了临床毒性数据。分子被表示为Morgan指纹或预训练的SMILES嵌入，这些嵌入是从一个门控循环单元-自编码器中提取的，训练该自编码器以将非规范SMILES转换为规范SMILES。通过使用潜在嵌入作为输入，作者捕捉到每个分子的重要特征。训练在SMILES嵌入上的多任务FFNN表现优于单任务模型和MoleculeNet的现有模型。

编译 | 黄海涛

审稿 | 曾全晨

参考资料

Catacutan, D. B., Alexander, J., Arnold, A., & Stokes, J. M. (2024). Machine learning in preclinical drug discovery. Nature Chemical Biology, 1-14.