在计算生物、化学、材料领域,伴随着深度学习的广泛使用,分子表征 (representation) 已经成为最基础的研究问题。来自加拿大 MILA 研究所的刘圣超博士所在团队致力于小分子表征研究,小分子表征中包含有丰富的多模态信息。本文主要从两个方面对他博士期间的工作做了简短总结:几何相关的多模态任务,文本描述相关的多模态任务。希望与相关领域研究者分享交流。
关键词:深度学习,分子表征学习,图神经网络,多模态,分子编辑,药物发现
刘圣超| 作者
目录
1 简介
2 几何相关的多模态任务(Single-modal and Multi-modal Pretraining on Geometry)
3 文本描述相关的多模态任务(textual description modality enables more comprehensive tasks)
• latent optimization则是专门训练一个token-level的解码器,然后利用ProteinCLAP直接优化得到optimal latent,再通过解码到protein sequence space。 图18:两种 text-guided protein editing 方法流程示意图和比较。 图 19:text-guided protein editing inference 流程示意图。 整个text-guided protein editing的inference流程图如图19。更多定量实验结果可以参考原文。
3.4 ChatDrug 基于ChatGPT对话增强的小分子、多肽、蛋白质编辑
该研究以《ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback》为题,发表在ArXiv上。 在2022年的11月,ChatGPT推出。紧接着很多领域、应用都开始尝试使用这个基于大模型的工具,并且发现了它的确能够优雅地解决很多问题。 这个工作中,我们就尝试将ChatGPT用于药物发现。首先一个比较有挑战性的瓶颈还是如何设计任务。我们跟随MoleculeSTM和ProteinDT的insight,主要对标drug editing系列任务,并且我们在这里考虑了三种类型的药物:小分子、多肽、蛋白质。 图20:ChatDrug流程图。
整个AI for molecule/drug discovery的发展其实还是比较初步,但是已经吸引到学术界、工业界的大量关注。回首十年前深度学习刚开始随着GPU的发展影响学术圈,而十年后的现在深度学习在学术领域已经取得了非常大的突破。我们团队也是对深度学习在科学领域的前景很有信心,但这两个领域之间目前也存在着非常大的gap:
[1] GraphMVP: Pre-training Molecular Graph Representation with 3D Geometry, ICLR 2022[2] GeoSSL: Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching, ICLR 2023[3] MoleculeSDE: A Group Symmetric Stochastic Differential Equation Model for Molecule Multi-modal Pretraining, ICML 2023[4] Geom3D: Symmetry-Informed Geometric Representation for Molecules, Proteins, and Crystalline Materials, ArXiv 2023[5] GraphCG: Unsupervised Discovery of Steerable Factors in Graphs, NeurIPS Workshop 2022[6] MoleculeSTM: Multi-modal Molecule Structure-text Model for Text-based Editing and Retrieval, ArXiv 202[7] ProteinDT: A Text-guided Protein Design Framework, ArXiv 2023[8] ChatDrug: ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback, ArXiv 2023[9] N-Gram Graph: Simple Unsupervised Representation for Graphs, with Applications to Molecules, NeurIPS 2019[10] AWARE: Attentive Walk-Aggregating Graph Neural Networks, TMLR 2022[11] SGNN-EBM: Structured Multi-task Learning for Molecular Property Prediction, AISTATS 2022[12] GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule Zero-Shot Learning, ArXiv 2023[13] MolGraphEval: Evaluating Self-Supervised Learning for Molecular Graph Embeddings, ArXiv 2022[14] D3G: Leveraging Domain Relations for Domain Generalization, ArXiv 2023
致谢
这个博客是我对于过去三年半工作的一个简短的总结。这里两个系列中,最早的工作是GraphMVP和Geom3D,都是21年暑假开始的工作。非常感谢家人朋友、各位指导老师和合作者的大力支持。Chapter 2是我主要在Mila Ph.D.期间完成的工作,非常感谢唐建教授的指导。Chapter 3主要是我在Caltech & Nvidia Prof. Anima Anandkumar指导下完成,她的指导非常有远见。此外也非常感谢加拿大国家实验室的Prof. Hongyu Guo还有UC Berkeley的Prof. Omar Yaghi, Prof. Christian Borgs, Prof. Jennifer Chayes的支持。
本文首发于作者知乎:https://zhuanlan.zhihu.com/p/639560302
欢迎扫码进入「集智斑图」,阅读收藏完整路径文章
斑图地址:https://pattern.swarma.org/article/242
作者简介
刘圣超, Mila 第四年博士,导师是唐建教授。将于2023年秋季加入UC Berkeley和Caltech联合博后,导师是Prof. Jennifer Chayes, Prof. Christian Borgs, 和 Prof. Anima Anandkumar。科研方向:迁移学习(多任务、预训练),多模态学习,统计生成学习。个人主页:https://chao1224.github.io
现实世界中大量问题的解决依赖于算法的设计与求解。传统算法由人类专家设计,而随着人工智能技术不断发展,算法自动学习算法的案例日益增多,如以神经网络为代表的的人工智能算法,这是算法神经化求解的缘由。在算法神经化求解方向上,图神经网络是一个强有力的工具,能够充分利用图结构的特性,实现对高复杂度算法的高效近似求解。基于图神经网络的复杂系统优化与控制将会是大模型热潮之后新的未来方向。 为了探讨图神经网络在算法神经化求解的发展与现实应用,集智俱乐部联合国防科技大学系统工程学院副教授范长俊、中国人民大学高瓴人工智能学院助理教授黄文炳,共同发起「图神经网络与组合优化」读书会。读书会将聚焦于图神经网络与算法神经化求解的相关领域,包括神经算法推理、组合优化问题求解、几何图神经网络,以及算法神经化求解在 AI for Science 中的应用等方面,希望为参与者提供一个学术交流平台,激发参与者的学术兴趣,进一步推动相关领域的研究和应用发展。读书会从2023年6月14日开始,每周三晚 19:00-21:00 举行,持续时间预计8周。欢迎感兴趣的朋友报名参与! 详情请见:加速经典算法效率,突破现实技术瓶颈:图神经网络与组合优化读书会启动
AI+Science 读书会
AI+Science 是近年兴起的将人工智能和科学相结合的一种趋势。一方面是 AI for Science,机器学习和其他 AI 技术可以用来解决科学研究中的问题,从预测天气和蛋白质结构,到模拟星系碰撞、设计优化核聚变反应堆,甚至像科学家一样进行科学发现,被称为科学发现的“第五范式”。另一方面是 Science for AI,科学尤其是物理学中的规律和思想启发机器学习理论,为人工智能的发展提供全新的视角和方法。 集智俱乐部联合斯坦福大学计算机科学系博士后研究员吴泰霖(Jure Leskovec 教授指导)、哈佛量子计划研究员扈鸿业、麻省理工学院物理系博士生刘子鸣(Max Tegmark 教授指导),共同发起以“AI+Science”为主题的读书会,探讨该领域的重要问题,共学共研相关文献。欢迎对探索这个激动人心的前沿领域有兴趣的朋友报名参与。 详情请见: 人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动