开发新药是一个昂贵且耗时的过程,可能需要超过10亿美元和10年的时间。在药物研发初期,尤其是对于创新药物研发而言,高效地发现具有新型骨架结构的苗头化合物或先导化合物是至关重要的一步。传统的策略是利用高通量筛选方法从现有化合物库中进行筛选;然而,因为现有化合物库的结构多样性有限,以及各大制药公司和药物研发机构已对化合物库进行了反复筛选,可能无法找到具有不同支架的其他活性化合物,发现具有自主知识产权的全新骨架结构活性化合物已变得越来越具有挑战性。
目前,人们已提出通过从头分子设计(De novo molecular design)——通过计算生成具有所需性质的新分子——来解决上述问题。然而,传统的从头分子设计方法(包括基于结构的分子设计方法、基于配体和基于药效团模型的方法)涉及一个相对手动的过程,这需要经验丰富的设计师和明确的设计规则。此外,由于头分子设计方法主要是基于片段,因此其生成的分子的质量和多样性在很大程度上取决于片段库和用于片段组装的算法。
近年来,基于深度学习的生成模型或生成式深度学习(generative deep learning, GDL)模型的研究获得了快速发展。其中,基于循环神经网络(recurrent neural network, RNN)的GDL模型研究报道最为广泛;而条件循环神经网络(conditional RNN, cRNN)通过给定RNN初始状态向量作为条件,可显式指导后续分子生成过程。
然而,现有cRNN以及其他GDL模型仍然存在诸多缺陷——例如过度依赖目标函数,生成分子新颖性、多样性有限等。此外,尽管大多数GDL模型已在理论层面得到验证,但应用于实际创新药物发现并获得成功的例子依然较少。