近日,四川大学化学学院/化学与生物信息学实验室蒲雪梅教授团队在Nature Communications 杂志上在线发表了论文,开发了一种普适性强准确度高的深度机器学习的共晶筛选模型,该模型可灵活应用于多种领域的共晶预测(药物、有机功能以及含能材料等),大幅提升了机器学习对共晶虚拟筛选的泛化能力和准确度,其构建策略可为深度学习在其它领域的应用提供了参考和指导。文章的第一作者是四川大学化学学院的博士研究生江源远,四川大学蒲雪梅教授为通讯作者,中国工程物理研究院的杨宗伟博士提供了含能共晶的实验验证。共晶工程已经成为制药、有机功能材料以及含能材料等领域中改善性能的有效手段,实验往往是通过大量的试错尝试来确定合适的共晶对,实现对共晶的合成,导致实验成本和时间消耗大,因此迫切需要能提升共晶合成效率的技术。人工智能技术的深度机器学习方法具有挖掘复杂关系的强大能力,并且相对于传统的机器学习可以避免特征工程,然而深度机器学习需要大数据的支撑,而真实世界面临的数据常常是有限的,尤其是化学和材料领域,并且数据多是不均衡的分布,比如正样本多而负样本缺乏。有限且不均衡的样本数据对深度机器学习的应用是一种挑战,一直被认为是一个困难的任务。作者针对此挑战,通过在图神经网络的end-to-end的自我学习中嵌入共晶形成的先验知识,并通过结合数据增强、注意力机制、集成学习和迁移学习的策略成功开发了一个基于图神经网络框架的普适性强准确度高的共晶筛选模型CCGNet (Co-crystal Graph Net),有效克服了共晶样本数据有限和不均衡的困难。作者首先从剑桥结构数据库CSD收集了6819个共晶正样本,针对共晶缺乏可靠的负样本数据集的问题以及避免计算方式产生负样本的假阴率的风险,从大量文献中收集了共晶失败实验的1052个共晶负样本,见图1(a)。针对此有限和不平衡的共晶数据,作者提出了一种互补的特征表示方法,将共晶领域的先验知识(12个重要的分子描述符)与图神经网络的分子图特征学习相结合以有效地提升对共晶形成驱动力知识的学习,见图1(b)。基于上述的数据集和样本表征,作者针对性地开发了一个能够有效实施其不同层次特征融合的图神经网络框架CCGNet,将代表领域知识的分子描述符嵌入到图神经网络的消息传递过程(message passing phase)和读出过程(readout phase)(图1(c-d))。此外,作者在Readout阶段引入了多头注意力机制从而进一步优化变量空间,见图1(e)。为了证明其特征表示和模型框架的先进性,作者做了消融实验(图2)。特征对比实验的结果揭示:虽然分子图具有强的结构表达能力,但是图神经网络在有限的数据中不能有效学习到与共晶形成密切相关的三维结构信息,因此与三维结构相关的描述符的引入显著提高了模型的准确率(图2a),指出了先验知识可提升深度机器学习在有限数据中对样本特征的学习能力。多头注意力的引入可进一步抓住对共晶形成有重要作用的氢键作用和ππ相互作用,模型同时在信息传递阶段和读出阶段的特征融合方式可以进一步提升模型准确率,基于这样的特征融合表征和模型框架,正负样本能够在变量空间中有效分开,为模型的高准确度奠定了基础,其在交叉验证集中的预测准确度明显高于7个竞争性模型(3个传统机器学习和4个深度学习模型)。作者所提出的这些构建策略可为深度机器学习的应用提供指导和参考作用。图2. CCGNet特征表征和模型框架的条件对比实验以及注意力可视化。为了验证CCGNet的普适性和泛化能力,作者采用集成学习的方式将其进一步应用于三种不同且重要的共晶领域(药物共晶、有机功能材料的ππ共晶和含能共晶),选择了在以往的虚拟筛选中表现不佳的样本作为独立测试集,我们的模型在药物共晶和ππ共晶中都达到了97%以上的预测准确度,其性能同样远超过了7种竞争性模型。对于数据更为缺乏且结构与通常有机分子共晶有明显差异的含能共晶领域,作者采用了迁移学习的策略,将普通共晶样本训练的CCGNet模型迁移至含能共晶领域,同样实现了对合成更为困难的含能共晶的高准确度预测(97%准确率),并且基于预测结果,作者成功合成了一个新的CL-20/1-甲基-4-硝基吡唑共晶,进一步验证了模型的可靠性和应用潜力。作者提供了所有的数据集和预测模型,可免费下载使用 [1],期望为共晶领域中共晶对的筛选提供一种有效的预测工具。Coupling complementary strategy to flexible graph neural network for quick discovery of coformer in diverse co-crystal materialsYuanyuan Jiang, Zongwei Yang, Jiali Guo, Hongzhen Li, Yijing Liu, Yanzhi Guo, Menglong Li & Xuemei Pu Nat. Commun., 2021, 12, 5950, DOI: 10.1038/s41467-021-26226-71.https://github.com/Saoge123/ccgnet
点击“阅读原文”,查看 化学 • 材料 领域所有收录期刊