【JMC】浙江大学侯廷军等发布用于训练和测试机器学习打分函数的数据集ToCoDDB

基于机器/深度学习的打分函数普遍在现有的虚拟筛选测试集上具有极好的测试指标，因此普遍认为这类模型比经典打分函数具有更好的准确性。然而，现有的虚拟筛选数据集如DUD-E等最初都是为了评估传统打分函数设计的，且其中存在的一些潜在偏向性，并不完全适合训练和测试基于机器/深度学习的打分函数。为了解决这些问题，浙江大学侯廷军教授课题组提出了一套新的基于已知活性分子产生阴性样本的方法ToCoDecoy，并基于该方法构建了一个用于训练和测试机器学习打分函数的数据集ToCoDDB，相关工作发表于美国化学会出版的药物化学核心期刊Journal of Medicinal Chemistry上（J. Med. Chem. 2023, 66, 13, 9174–9183）。

为了构建ToCoDDB（Topology-based and Conformation-based Decoys DataBase），作者首先从DUD-E、DEKOIS和LIT-PCBA数据集中收集已知的活性分子并进行去重，接着作者采用ToCoDecoy方法产生阴性样本。顾名思义，ToCoDecoy产生的阴性样本分为两类，一类是根据拓扑结构产生的阴性样本，另一类是将已知活性分子对接到结合口袋中产生的不合理的对接构象作为阴性样本。根据拓扑结构产生的阴性样本由一个条件循环神经网络（cRNN）模型产生，约束条件包括产生的阴性样本应与输入的已知活性分子具有相似分子量、log P等理化性质，同时分子指纹相似性低于0.4。作为阴性样本的对接构象通过Glide SP产生，将每一个已知活性分子对接到其对应口袋，将对接得分最高的作为正确的构象，得分差于-4 kcal/mol且同时排名倒数50的构象作为加入ToCoDDB的阴性样本。最终，ToCoDDB中共155个靶点以及大约240万个分子，图1展示了ToCoDDB中靶点和所有分子的统计信息。

图1. ToCoDDB的统计信息。A. 不同家族的靶点所占比例；B. ToCoDDB中来源于DUD-E、DEKOIS和LIT-PCBA中的活性分子所占比例；C-F. 各个蛋白家族中包含的活性分子、根据拓扑结构产生的阴性样本和对接构象阴性样本的数目。

除了ToCoDDB数据集本身之外，作者还按照8：1：1的比例随机划分ToCoDDB作为训练集、验证集和测试集。之后作者训练并测试了在前期工作中开发的IGN模型，并将测试指标一同列在ToCoDDB中（图2），以方便其他科研人员开发类似模型时作为参照标准。

图2. 利用ToCoDDB训练并测试了IGN模型的表现。A. IGN在所有靶点上测得的指标分布；B.IGN在不同蛋白家族上的测试指标分布。

为了方便药物设计工作者在其它并未收录在ToCoDDB数据库中的靶点上测试他们选用的筛选模型性能，作者提供一个网络服务器（图3）可以根据用户上传的已知活性分子的SMILES产生基于拓扑结构的阴性样本，用户同时还可以指定所需要的理化性质和相似性阈值限制。不过受限于Glide使用许可，这个服务器无法产生构象阴性样本。

图3. 产生阴性样本的网络服务器界面。

总结

本文中作者开发了一个用于训练和测试机器学习打分函数的数据集ToCoDDB，该数据集覆盖靶点广且包含分子数多。该数据集收录的活性分子来源于公开数据集，阴性样本由ToCoDecoy算法产生，可以分为两类包括根据拓扑结构产生的与已知活性化合物结构不相似的分子和已知活性分子的不合理对接构象。同时，作者提供了IGN模型在该数据集上的测试结果以方便其他科研人员在采用ToCoDDB作为数据集开发打分函数时进行对比。但是值得注意的是，ToCoDDB中的构象阴性样本基于Glide SP产生，因此如果利用ToCoDDB测试“对接能力“，Glide SP在该数据集上可谓是“天花板”的存在。另一方面，ToCoDDB整合了DUD-E、DEKOIS和LIT-PCBA数据集中收集已知的活性分子，数据量较其它数据集有了明显提升，但是并未参考LIT-PCBA的构建过程中对活性的分子相似性进行控制（未进行无偏处理），因此利用ToCoDDB进行虚拟筛选测试测得的指标惊人（如IGN模型的AUROC约0.95），并不能很好地反映机器/深度学习打分函数在真实场景中的性能。

【参考文献】

Xujun Zhang, Chao Shen, Tianyue Wang, Yu Kang, Dan Li, Peichen Pan, Jike Wang, Gaoang Wang, Yafeng Deng, Lei Xu, Dongsheng Cao*, Tingjun Hou*, and Zhe Wang*. Topology-Based and Conformation-Based Decoys Database: An Unbiased Online Database for Training and Benchmarking Machine-Learning Scoring Functions. J. Med. Chem. 2023, 66, 13, 9174–9183

服务：

本公众号免费接受科研团队/单位的研究进展、研发故事等非商业/非盈利目的投稿，及免费发布科研团队的招聘广告等，欢迎后台联系。

声明：发表/转载本文仅仅是出于传播信息的需要，并不意味着代表本公众号观点或证实其内容的真实性。据此内容作出的任何判断，后果自负。若有侵权，告知必删！

长按关注本公众号

粉丝群/投稿/ 授权/广告等

请联系公众号助手

觉得本文好看，请点这里↓