JCIM｜MILCDock：用于药物发现中虚拟筛选的机器学习一致性对接

2022年11月7日，美国杨百翰大学的Dennis Della Corte团队在Journal of Chemical Information and Modeling上发表文章MILCDock: Machine Learning Enhanced Consensus Docking for Virtual Screening in Drug Discovery。

作者提出了MILCDock（Machine Learning Enhanced Consensus Docking），使用神经网络集成了五个工具来预测配体与蛋白质靶点的对接，实现了具有竞争力的先进的蛋白质-配体对接预测性能。

背景

分子对接工具用于药物发现，以筛选海量的小分子库虚拟筛选过程中的靶蛋白，预测蛋白质-配体的结合活性和亲和力。高通量虚拟筛选方法可以有效筛选药物发现的主要靶点。

然而，尽管高通量虚拟筛选方法有潜力提高药物发现效率，准确的结合亲和力预测、可靠地区分活性或者非活性的靶标-配体对，仍是一项艰巨的任务。因为，对接工具的准确性取决于评分功能，并且在蛋白质靶点之间变化很大，从而很难先验地预测对接工具是否将在不同的虚拟筛选目标上表现良好。一致性对接通过结合多种评分工具，可以提高评分的准确性，而机器学习则是实现一致性对接方法的有效途径。

图1. MILCDock模型图

本文作者创建了一个机器学习一致性对接工具MILCDock，该工具使用五种传统分子对接工具的预测配体与蛋白质结合的概率。MILCDock经过训练和测试基于DUD-E和LIT-PCBA对接数据集的数据，显示出优于传统分子对接工具的性能。

方法

作者使用了五个工具来对接活性/非活性配体与蛋白质靶点：Autodock Vina[2]、AutoDock4[3]、PLANTS[4]、rDock[5]和LeDock[6]。

Autodock Vina 1.1.2版。受体文件为通过手动将氨基酸残基名称转换为Amber格式，然后使用AutoDockTools中的prepare_receptor4.py转换为pdbqt格式。配体文件使用来自AutoDockTools中的prepare_ligand4.py来准备。Vina使用经验/基于知识的评分功能。

Autodock4版本4.2.6。使用AutoDockTools中的prepare_gpf4.py和autogrid4生成可执行文件。使用prepare_ receptor4.py和prepare_ligand4.py处理受体和配体，这两个脚本也分别来自AutoDockTools。因为Autodock4输出在对接计算中获得了许多中间分数，所以除了最终的对接得分，许多中间得分的分数也包含在机器学习输入向量中。Autodock4使用经验/基于知识的评分功能。

PLANTS 1.2版。已准备受体文件使用SPORES 1.3版，使用“完整”运行模式。在配置文件中，“chemplp”用于评分功能设置，搜索速度为“speed1”。对于聚类算法，“cluster_structures”设置为20，并且“cluster_rmsd”设置为2.0。除了最后的对接得分，许多中间得分也包括在机器学习输入向量中。PLANTS使用经验评分函数。

RDock版本2013.1。受体文件已转换为MOL2格式，配体文件使用OpenBabel转为SD格式。使用的评分函数为RbtCavityGridSF。除了它的最终得分之外，rDock输出很多分子间评分函数的中间评分分数和标准化分数，被用作机器学习的输入。rDock使用经验/基于力场的评分功能。

LeDock 1.0版。受体文件转换为CHARMM格式，然后在它们上运行lepro可执行文件。LeDock使用基于经验/力场的评分函数。

MILCDock使用集成的神经网络（多层感知机）将以上五种工具进行集成，如图1所示。

结果

作者比较了多种机器学习方法：朴素一致性方法， XGBoost、朴素贝叶斯分类器），以及集成或者非集成的神经网络（多层感知机）。其中集成的多层感知机（ensemble MLP）即代表MILCDock模型。作者引入了在化合物虚拟筛选中使用的二分类指标：富集因子（enrichment factor，EF）[7]作为检验指标。表1表明，MILCDock在多个靶标的EF指标中均表现最好。

表1：不同方法的对比

作者绘制了对接工具富集因子（EF1%）的提琴图。该测试集是由四个LIT-PCBA中的和二十个DUD-E中的受体组成。这进一步表明，从统计角度而言，MILCDock在多个靶标的EF指标中均表现最好。

图2. 提琴图

总结

分子对接工具通常用于在药物发现的虚拟筛选中识别新分子。然而，对接工具对于靶标蛋白-配体药物的评分功能不准确，在不同蛋白质上的性能差异很大。本文使用神经网络集成了了五个工具来预测配体与蛋白质靶点的对接，显著改进了对蛋白质-药物互相作用关联的预测。

参考资料

[1] Morris et al., MILCDock: Machine Learning Enhanced Consensus Docking for Virtual Screening in Drug Discovery, J. Chem. Inf. Model. 2022

[2] Trott et al., AutoDock Vina: improving the speed and accuracy of docking with a new scoring function, efficient optimization, and multithreading. J. Comput. Chem. 2010

[3] Morris et al., AutoDock4 and AutoDockTools4: Automated docking with selective receptor flexibility. J. Comput. Chem. 2009

[4] Korb et al., PLANTS: Application of ant colony optimization to structure-based drug design. In International workshop on ant colony optimization and swarm intelligence. 2006

[5] Ruiz-Carmona et al., rDock: a fast, versatile and open source program for docking ligands to proteins and nucleic acids. PLoS Comp. Biol. 2014

[6] Zhang et al., Enriching screening libraries with bioactive fragment space. Bioorg. Med. Chem. Lett. 2016.

[7] Su et al., Comparative assessment of scoring functions: the CASF-2016 update. J. Chem. Inf. Model. 2018

--------- End ---------

感兴趣的读者，可以添加小邦微信（zhiyaobang2020）加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。