已经依赖 AI 寻找新药的生物技术公司可以将文本生成作为一种简单、直观的方式与他们的其他一些 AI 和机器学习工具进行交互。哈佛大学T.H. Chan公共卫生学院流行病学系人工智能研究员兼 Generate Biomedicines 的科学顾问安德鲁·比姆 (Andrew Beam) 称 ChatGPT 为“一个非常有趣的界面”,与当前的人工智能相比,它允许用户更轻松地使用其他形式的人工智能接口。
例如,纽约和香港的 Insilico Medicine 是一家旨在通过其 AI 驱动平台搜索潜在药物靶标的公司,现在正在使用 ChatGPT 作为与其靶标发现平台交互的新方式,增强关系和整合由知识图提供—以前是集成数据的主要方法。蒙特利尔 Insilico Medicine 总裁兼 AI 平台负责人兼计算化学家 Petrina Kamya 表示,由于 ChatGPT,他们可以与自己的发现系统对话:您阅读并理解的这段文字。”
除了采用聊天机器人来帮助制作书面材料(如论文、专利或资助申请)之外,其他人还可以将它们重新用于药物发现,作为一种专门针对生物科学的高级搜索引擎。“我们可以有一个更具体的,例如,Bio ChatGPT 或 Med ChatGPT,”阿拉巴马大学伯明翰分校的计算化学家、Ainnocence 的创始人兼首席执行官 Lurong Pan 说,Ainnocence 是一家生物技术公司,拥有一个帮助药物发现的平台。“它可能会改变人们搜索的方式。” 例如,谷歌和 DeepMind 今年早些时候发布了 Med-PaLM,这是一款旨在提供医疗问题答案的聊天机器人。
所有这些聊天机器人都基于大型语言模型 (LLM),这些算法是根据从互联网收集的数百万文本示例进行训练的。LLM 是一种生成式人工智能——能够创建以前不存在的数据的算法。对于文本,LLM 学习单词之间的统计关系。然后,在给出诸如问题之类的提示时,他们通过预测哪个词最有可能跟在前一个词之后来生成文本。结果看起来非常自然,尽管聊天机器人经常做出与现实不符的陈述,本质上是“幻觉”事实。ChatGPT 基于名为生成式预训练转换器的 LLM,Med-PaLM 借鉴了 Google 的 Pathways Language Model,而谷歌正在将其整合到其搜索引擎中的更通用的聊天机器人 Bard 则依赖于对话应用程序语言模型 (LaMDA)。
Kamya 说,这些法学硕士已经证明对毒品猎手有用。以前,Insilico 平台的用户能够查看知识图谱,这是与特定疾病相关的基因以及已知与这些基因相互作用的物质的视觉表示。这是有用的信息,但研究人员使用它的方式有限。现在,随着聊天功能的增加,Kamya 说数据变得更容易访问。“能够与该工具进行对话非常有力量。如果您能够以您想要的方式查询我们的生物医学知识图谱,它就会变得更有趣,”她说。
例如,如果科学家想要研究牛皮癣,聊天功能可以查看该疾病的知识图谱。它将提供文本描述,其中包括涉及银屑病的主要信号通路和基因以及已知与其相互作用的化合物。然后用户可以提出任何问题——例如,“这张图中有多少基因?” - 并获得即时响应,或寻找基因与特定疾病(如肉瘤)之间的关联。Insilico 平台,称为 PandaOmics,将显示肉瘤的首要目标基因是PLK1。用户可以进一步询问,请求链接到特定途径——例如细胞凋亡——并立即得到答复。
ChatGPT 生成对话输出。然后,Insilico 使用经过多年收集的自己数据训练的其他预测性 AI 程序来验证聊天中出现的内容。因此,“我们的输出非常准确,”该公司创始人兼首席执行官 Alex Zhavoronkov 说。Zhavoronkov 的母语不是英语,他在撰写论文时也使用 ChatGPT 来帮助他改进语法,最近他将 ChatGPT 列为一篇期刊文章的合著者,引发了争议。
科学家还发现 LLM 有助于链接数据并以不同方式表示数据。Exscientia 是一家总部位于英国牛津的制药技术公司,该公司的首席技术官 Garry Pairaudeau 表示,该公司一直在尝试使用 LLM 将普通的英语陈述翻译成结构严谨的机械断言,以帮助生成他们的知识图谱。
LLM 仍在不断发展,开发人员以惊人的速度添加功能。12 月发布的 ChatGPT 基于 OpenAI 的 GPT 3.5 版本。更新版 GPT-4 于 3 月中旬发布,性能大大优于其前身。3 月下旬,ChatGPT 添加了一个所谓的检索插件,该插件可能对药物发现特别有用。这是一个允许软件搜索个人或公司文件的模块,伦敦人工智能驱动的生物技术公司 BenevolentAI 的首席技术官 Dan Neil 对此感到兴奋,因为这是一种基于公司自己的数据。“如果你有一个你在公司内部文件中编写和描述的专门化验,你可以说,‘嘿,看看我们在内部获得的这些结果,这如何更新你的想法?你能找到或想象生命科学中实际利用我们发现的这些信息的其他新方法吗?'”他说。
尽管他们的名字,语言模型不需要用英语或其他人类语言进行训练。推导统计关联的相同技术可以应用于 DNA 或蛋白质序列的“语言”。然后,他们可以生成可能成为良好药物靶点的新蛋白质,而不是新句子。“这是同一个想法,”比姆说,“但我们展示的是生物数据,而不是来自互联网的文本。”
有些人担心,训练人工智能系统设计出很有可能击中目标的分子需要大量数据,并由人类手工标记。而且这样的收集并不总是即将到来,因为定期产生这些信息的公司并不总是热衷于分享它。但 Pan 说,允许 ChatGPT 编写句子的相同方法可能会为新分子设计提供完美的解决方案。提供大量未标记数据的语言模型——例如 UniProt 数据库中包含的近 2.5 亿个蛋白质序列——可以自行推导出分子构建块之间的正确关系。
Bioxcel Therapeutics 是一家使用 AI 来识别在 2 期或 3 期试验中搁置甚至在批准后搁置的药物的公司,该公司正在考虑 LLM 从不同的数据库中挑选出潜在的获胜者。但法学硕士只有在适合 Bioxcel 的 AI 工具套件时才会被证明是有价值的,神经科学家兼公司的 CSO Frank Yocca 说。“现在,就你得到的回报而言,它不是很准确,”他警告说。“但我们正处于起步阶段。”
确保结果准确并避免 AI 幻觉的一种方法是 Neil 所说的“证据浮现”。当 LLM 产生它声称是事实的东西时,他的公司添加了一种算法来提供引用和参考来支持它。他们的系统使用语义搜索——一种评估单词含义的方法——从支持断言的论文和生物学文本中提取句子。该系统从其掌握的数百万份文件中选择一些相关的句子,并将它们呈现给人类专家,然后专家可以查看这一小部分数据来判断所声称的事实是否属实。
Yocca 说,人们可能会被最新技术所吸引,而忽视它是否真的能帮助他们实现目标。“你可能会因为让机器做你想做的事而不一定给你一个功能性的答案而被消耗掉,”他说。“我们尽量避免这种情况。”
并不是每个人都在跳上 ChatGPT 的潮流。巴黎 Enterome 的免疫学研究负责人 Joao Magalhaes 说:“基本上,我们已经拥有了生成我们想要的东西的所有工具,而且我们已经在探索大量信息,而且我们暂时不会尝试扩展更多信息。” 一方面,他担心提供患者信息来培训 LLM 可能会损害隐私。
不过,他并不反对采用新的人工智能技术。例如,该公司使用AlphaFold,这是一个由 DeepMind 开发的人工智能系统,它查看氨基酸序列并使用这些序列来预测蛋白质的三维结构,包括许多以前未知的蛋白质。“这对我们来说是一个巨大的进步,”Magalhaes 说。他将密切关注 ChatGPT,如果它看起来有用,公司将考虑采用它。
Beam 指出,其他类型的生成 AI,例如可以从随机噪声中创建图像的扩散模型,已经进入生物学领域。因为这些模型可以创建蛋白质结构的新图像,所以它们“可以说是药物发现和药物开发的更直接途径,”Beam 说。
他说,如果不出意外,ChatGPT 的兴起已经引起了人们对生成人工智能潜力的广泛认识,并鼓励生物技术公司仔细研究。“ChatGPT 让每个人都意识到生成模型的力量,”Beam 说。