ChatGPT 是由 OpenAI 开发的最先进的语言模型。创建者 OpenAI 在测试阶段免费提供了原型软件,并鼓励用户分享他们的反馈。维基百科称:“ChatGPT有能力编写和调试计算机程序,编写音乐、电报、童话故事和学生随笔;回答测试问题(有时,取决于测试,水平高于人类测试人员的平均水平);撰写诗歌和歌曲歌词;模仿 Linux 系统;模拟整个聊天室;模拟ATM。”
那么,像这样的软件会如何影响药物发现?
药物发现是一个非常困难和复杂的过程,原因有几个:(1) 生物复杂性:人体是一个令人难以置信的复杂系统,在分子水平上理解它是如何工作的是很困难的。(2)高失败率:进入临床试验的药物大多数未能获得批准。(3) 耗时且昂贵:药物发现过程漫长且成本高昂。将一种新药推向市场可能需要长达15年的时间,花费数十亿美元;(4) 严格的监管要求:药物开发的过程受到严格监管,药物必须经过一系列的临床前和临床试验才能被批准使用;(5) 药物开发的不可预知性:即使在一种药物被鉴定和开发后,也不能确定它会在人体试验中按预期工作,有时它会产生意想不到的副作用;(6) 缺乏新的靶点:许多已知的药物靶点已经被开发,而寻找新的靶标变得越来越困难。
使用计算化学的药物发现是应用基于计算机的方法来帮助发现新药。它涉及使用计算机模拟和建模技术来预测潜在药物分子的性质和相互作用。这些方法可用于了解蛋白质和其他生物靶标的结构和行为,并设计和优化能与这些靶标结合并调节其活性的新化合物。
图1:基于计算的药物发现过程
1.计算化学物质的多样性(multiplicity):当询问 Zn 的多样性时,ChatGPT给出了正确的答案。ChatGPT 的答案如下:“锌是原子序数为30的过渡金属,它的电子构型有30个电子。Zn 的电子构型为 [Ar]3d^10 4s^2。由于所有的电子都在轨道中配对,Zn的multiplicity为1。这意味着 HOMO 中的所有电子都是配对的,分子没有未配对的电子。”因此,ChatGPT可以用来利用密度泛函理论 (DFT) 在量子力学计算中确定各种化学物质的多样性。
2. AutoDock 对接的输入文件:ChatGPT成功给出了 AutoDock 软件的输入文件,还解释了其中提到的参数。3.查找 PDB文件:它在PDB搜索中也很有用。例如,它可以提供金属蛋白、与 DNA 结合的蛋白、刺突蛋白等的PDB ID。然而,ChatGPT 未能回答复杂的问题。4.可以给出 FASTA 序列,但不能比较 FASTA 序列:在这种情况下,ChatGPT无法提示 FASTA 序列。然而,建议可以从 UniProt 数据库中获得 fasta 序列。5.ADMET 特性:在这种情况下,它只能给出已知药物的特性,这些药物可以很容易地从各种药物数据库中获得。6.文献检索帮助:ChatGPT的一个主要应用是文献检索,并列出与主题相关的具体结果。7.对接代码:有趣的是,它可以帮助编写基本代码,可以在药物发现的许多方面广泛使用。8. 检查剽窃:可用于检测剽窃,使研究过程和研究工作顺利发表。9. 机器学习和数据分析:它可以使用其 API 集成到程序或应用程序中,允许开发人员输入文本并接收模型生成的响应。可以使用Python、JavaScript和C#等编程语言访问API。此外,OpenAI团队还发布了模型的预训练版本,可以使用称为转移学习的过程针对特定任务进行微调。10. 创新:创新是研究领域的一个主要部分,只有提出不同的问题才能做到。在这方面 ChatGPT对帮助研究人员提出新颖的想法非常有用。
a.识别和验证新的药物靶标:ChatGPT可以应用于科学文献的数据集,并用于生成给定疾病或生物靶标的最新研究总结。这可以帮助研究人员快速识别新的潜在靶标或更好地了解特定领域的研究现状。
b.设计新药:ChatGPT可以应用于已知类药分子的数据集,并用于生成具有相似性质的新化学结构。这可以帮助研究人员确定在临床前和临床研究中成功几率更高的新先导化合物。c.优化药物特性:ChatGPT可用于预测新药的药代动力学和药效学,并支持早期药物发现中化学库的虚拟筛选。d.评估毒性:ChatGPT可以在毒性数据的数据集中进行应用,并用于预测新药的潜在毒性作用。e.生成药物相关报告和论文:ChatGPT可以应用于药物相关论文的数据集,并用于生成总结特定领域研究现状的报告和论文。通过提供一种经济有效的方法来处理大量数据并产生新的知识,ChatGPT可以帮助研究人员做出更明智的决定,加速药物发现过程。值得注意的是,ChatGPT只是药物发现中使用的许多工具中的一个,它不能替代实验验证和临床试验。然而,它可以通过提供一种经济有效的方法来处理大量数据和产生新的知识,从而显著加快和改善药物开发过程。
1.依赖于数据的质量和可用性:ChatGPT仅与接受过训练的数据一样好。如果数据不完整、存在偏倚或不准确,则模型的预测可能不可靠。
2.缺乏实验验证:ChatGPT可以生成预测和假设,但不能进行实验或测量化合物的性质。因此,模型做出的预测需要实验验证。3.对潜在生物学的理解有限:虽然 ChatGPT 可以生成类似人类的文本,但它不理解它正在模拟的系统的潜在生物学。因此,模型做出的预测可能并不总是反映系统的真实复杂性。4.可解释性有限:ChatGPT与其他机器学习模型一样,可能难以解释,并且并不总是清楚模型是如何得出特定预测的。5.处理不确定性的局限性:ChatGPT是一种确定性模型,不能解释数据和预测中的不确定性。6.缺乏透明度:ChatGPT是一个黑盒模型,很难理解和解释模型的内部工作原理,这会使模型的预测难以信任。
总之,ChatGPT是一种强大的语言模型,可以协助药物发现。通过处理和生成类人文本,可以帮助研究人员快速识别新的潜在靶标,更好地了解研究现状,设计新药,优化新药的药代动力学和药效学。然而,重要的是要注意,ChatGPT只是药物发现中使用的许多工具中的一个,它并不能替代实验验证和临床试验。此外,它未能进行复杂的计算,如模拟和分析分子水平研究。尽管如此,ChatGPT在药物发现中的应用是一个很有前景的研究领域,因为它有可能显著加快和改善药物开发过程。
Sharma G, Thakur A. ChatGPT in Drug Discovery. ChemRxiv. Cambridge: Cambridge Open Engage; 2023感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明姓名-企业-职位/岗位 或 姓名-学校-职务/研究方向。