Verge Genomics利用AI来发现神经退行性疾病的新靶点,在去年12月从包括礼来和默克在内的投资者那里获得了9800万美元(见AI药物开发公司Verge获9800万美元B轮融资),旨在今年启动一项针对新靶点的肌萎缩侧索硬化症(ALS)药物的临床试验。
今年1月,总部位于伦敦的BenevolentAI扩大了其与阿斯利康三年的合作范围,以应用该生物技术公司的疾病诊断平台,该平台已经产生了至少3个新的药物靶点(见BenevolentAI与阿斯利康的合作实现第三个里程碑,获里程碑付款)。
今年4月,BioAge Labs宣布,他们已经给第一个试验受试者服用了一种旨在治疗肌肉萎缩的药物,该药物是通过AI分析从一个人类衰老研究中的患者队列中收集的临床和组学数据而确定的。
去年10月,Immunai获得了2.15亿美元的C轮融资,通过将人工智能应用于大量的患者免疫学数据来确定新的药物靶点。
总部设在伦敦的Relation Therapeutics在6月筹集了2500万美元(见主动图机器学习药物研发|Relation完成2500万美元种子轮融资),以搭建一个基于ML的平台,将单细胞分析与临床洞察力相结合,发现治疗骨病的新靶点。
所有这些公司的不同之处在于他们的”human first"方法。开始的重点是在病人来源的数据中确定靶点,而不是在动物模型或高通量筛选和基于细胞的检测中确定靶点。Verge的联合创始人兼首席执行官Alice Zhang说:"我们建立平台的核心思想是,为了在人类身上取得成功,我们需要从人类身上着手。"
这本身并不新鲜。在过去的20年里,许多药物项目都是由人类基因数据推动的,这些数据主要来自被称为全基因组关联研究(genome-wide association studies,GWAS)的人口规模调查,这些调查将患者群组的基因特征与健康对照组的基因特征进行比较。更重要的是,庞大的研究生物库和像Genomics England这样的国家公私合作项目的兴起,收集了超过15万个人的表型和基因组数据,为药物公司提供了充足的工作材料。
大型生物制药公司已经接受了这种方法。例如,安进在2012年收购了冰岛初创公司deCODE Genetics,以获得该公司深厚的基因组学专业知识和数据资源,包括来自大约50万人的基因组和临床数据。Regeneron和阿斯利康也通过内部研究、与学术界的合作以及国际生物库计划,各自建立了强大的分子和临床数据库,数据量远远超过一百万。
这种规模的数据使得发现对健康和疾病有巨大影响的罕见基因变异变得更加容易。但是,随着这些数据集变得越来越大,并纳入了基因组以外的其他组学,包括转录组、蛋白质组,甚至代谢组数据,它们的分析变得更具挑战性。这就是人工智能可以成为一种强大工具的地方--特别是当人们在数据中寻找可能不那么明显的信号时。
Regeneron Genetics Center (再生元遗传学研究中心) 的首席数据官Jeffrey Reid说:"
在某些时候,我们将完成所有低悬的果实,也许这就是新方法将更具变革性的地方,因为人工智能和ML相当擅长在广泛的变量中寻找真正微妙的非线性信号。"
这些信号可以包括与疾病相关的各种类型的数据。
例如,Insitro开发了一个基于ML的平台,可以分析肿瘤组织病理学图像、基因组序列和临床医生报告,以确定与特定病理学相关的独特特征。最近宣布的Insitro与Genomics England的合作,将其基于人工智能的靶点发现平台应用于他们的数据集,以促进药物靶点发现。
ML分析还可以发现支撑疾病的复杂生理途径,并深入了解为什么某种特定疾病的患者之间存在差异。
庞大的队列,如那些由Genomics England或其芬兰的同类项目FinnGen计划等国家规模的计划所组成的队列,可以作为探索常见和罕见疾病的起点。但对一些初创公司来说,与较小的队列合作使他们能够更深入地研究特定疾病。
例如,Verge公司专注于神经退行性疾病,并收集了7000名患者的基因组、转录组和蛋白质组的大脑和脊髓组织数据。而总部位于香港的Insilico Medicine已经应用人工智能来识别肌萎缩性脊髓侧索硬化症(ALS)中失调的基因表达谱和改变的路径,以便发现靶点。在最近的一份出版物中,他们描述了他们如何从ALS患者和对照组的公共数据集中,为未来的药物开发找到了17个潜在的药物靶点,包括11个新靶点。
总部位于伦敦的Alchemab公司正在使用ML分析是什么让癌症幸存者对疾病有抵抗力。CSO和联合创始人Jane Osbourn说:"我们的假设是,至少在某些情况下,人们有保护性的自身抗体,为他们提供了一些疾病的复原力"。通过对来自每个人的数千万个B细胞的抗体编码DNA序列进行人工智能分析--大约占其B细胞总数的1%--Alchemab旨在发现这些保护性抗体和它们所针对的细胞蛋白。
人工智能可以在分析的不同阶段实施,包括在最开始,以寻找关键的可操作数据片断。
例如,Reid说他在Regeneron的团队偶尔会执行与假设无关的”全部”分析。"向我展示这种基因型与任何表型之间最重要的关联,然后你就会得到这份清单。或者它可以专注于特定的疾病表型和更窄的基因和路径子集,以提供对特定病症的分子解释。"
当Verge的科学家使用ML分析ALS患者的脊柱组织并检测出溶酶体功能和疾病病理之间的联系时,就是这种情况。Zhang说:"这就依赖于对调控相互作用、基因-基因相互作用的大量理解,我们利用这一点基本上创建了一个潜在靶点的等级排序列表。其中一个排名靠前的靶点是一种叫做PIKfyve的磷酸肌酸激酶,现在是Verge公司主要临床项目的重点,该项目有望在今年晚些时候向美国FDA提交一份NDA。"
为了寻找新的药物靶点,BenevolentAI和阿斯利康梳理了实验和临床数据库,以及科学和医学文献。以这种方式收获的数据然后被组合成”知识图谱",以捕捉基因和路径等之间的关系。阿斯利康基因组学研究中心的副总裁兼负责人Slavé Petrovski开发了一个ML工具,它利用来自几十个生物数据库(包括人类蛋白质图谱和各种GWAS数据目录)和特定疾病的临床和基因组资源的洞察力,破译大型人类数据库中潜在的疾病相关基因。他说:"它可以为20,000个人类基因中的每个基因分配一个与疾病相关的概率,以适应特定的表型。这是我们可以从所有那些排名很高的、排名很好的信号中筛选出哪些有可能是真正的生物学。"
人工智能还可以对单个细胞亚型进行分类和定性。
Celsius的平台分析了来自不同患者队列的单细胞转录组数据,以区分特定细胞类型中的某些基因如何与特定表型相关。Magram说,对于IBD来说,这些细胞类型之一是炎症单核细胞,它是细胞因子产生的一个关键驱动因素,因此我们以这些细胞为中心,搜索什么受体可能驱动那里的生物学。这项分析发现了一种叫做TREM1的蛋白质,这种细胞受体可以被选择性地抑制,以阻止IBD的炎症,而不会广泛损害免疫功能,这种蛋白质现在是该公司的主要目标。
闭环很重要。
即使有最强大的算法,人工智能的输出通常只是靶点识别道路上的一个步骤。华盛顿大学的计算机科学家Su-In Lee说:"闭环真的很重要"。他曾在生物医学研究中使用人工智能和ML。"你用神经网络来产生这个假设,然后你把这个靶点候选者交给实验者,做实验,然后这可以再次为模型学习提供信息。"
这种临床前工作(标准的细胞培养和基于小鼠的实验)往往会随之进行。但少数公司,如Insitro和Verge,正试图通过在患者衍生的诱导多能干细胞中进行靶点特征分析,使这一过程尽可能地human-oriented。Zhang说:"这使我们能够从ALS和帕金森病患者身上获取皮肤细胞,并直接将其转化为他们自己的脑细胞,然后我们在这些人类衍生的神经元中验证这些靶点。"