此篇文章来自 GEN Biotechnology 的 2022 年 8 月月刊内容「Deep Learning Concepts and Applications for Synthetic Biology」。本文
概述了与合成生物学相关的数据类别和深度学习架构,强调了利用深度学习在合成生物学中实现新的理解和设计的新兴研究,并讨论了这一领域的挑战和未来机会。再创对此综述进行了中文翻译和整理,继续为读者们带来下篇内容,主要介绍深度学习在合成生物学中的应用以及展望。(上篇访问链接:深度学习的概念以及其在合成生物学中的应用(上)丨再创)
William A.V. Beardall, Guy-Bart Stan, and Mary J. Dunlop / 作者
锐锐 / 翻译
在本节中,我们将介绍深度学习在合成生物学研究中的应用示例(图 3 A),回顾在生物元件设计、基于结构的学习、图像应用、最优实验设计和神经网络的生物分子实现方面取得的最新进展。
▲ 图 3:深度学习在合成生物学应用中的应用。
(A) 深度学习网络的相关输入示例及其对应的输出预测。许多模型是在计算机上实现的,但也存在可生物分子实现的模型。
(B) 深度学习可以根据新的输入进行预测。模型也可以反向使用,根据期望的输出生成新的设计。
研究人员在利用深度学习预测生物元件的功能方面取得了重大进展,如启动子、核糖体结合位点 (RBSs)、5' 和 3' 非翻译区 (UTRs) 等。这些元件往往在长度上受到限制,例如 5'UTR 序列约为 50 个核苷酸,启动子约为 300 个核苷酸。因此可以利用 DNA 合成来生成大规模的随机或半随机文库,这些文库在与 NGS (next-generation sequencing)相结合的大规模并行分析中测量其功能。
合成大型文库的能力代表了合成生物学方法可生成数据需求大的模型所需的训练集。
例如,Sample 等人开发了一个深度学习模型 Optimus 5-Prime ,能够准确预测 5'UTR 序列如何控制核糖体负荷。尽管已存在与人类内源性 5'UTR 序列相关的序列-翻译效率数据集,但这些自然数据集并不适合用于模型训练,因为具有有害影响的序列在天然数据库中中可能代表性不足,并且内源性转录数据无法捕获广泛的表达水平。
为了解决这些问题,Sample 等人合成并分析了一个由 28 万个随机的 50 核苷酸的 5'UTR 序列构成的文库,这些序列位于绿色荧光蛋白的编码序列上游。利用转染 HEK293T 细胞的数据来训练 Optimus 5-Prime 模型,模型的输入是 5'UTR 序列的独热编码表示,输出是平均核糖体负荷值。研究人员采用了 CNN,该模型具有出色的性能,可以解释测试集中高达 93% 的平均核糖体负荷值。
结合 DNA 合成、大规模并行分析和深度学习的方法亦已被用于启动子设计。合成生物学家在构建设计中通常使用相对较少的天然启动子。虽然存在人工启动子库,但它们通常是现有序列(例如通过突变产生的变异体)的衍生物,这限制了多样性。此外,很强的启动子在天然数据库中也非常稀缺。Kotopka 和 Smolke 利用大规模并行分析研究了一个启动子变异体库。该设计保留了启动子中的保守序列,并随机排列其余部分(约占序列的 80%)。
这突出了一种通过结合合理设计和随机设计来访问更大的序列空间的潜在方法。研究人员使用荧光细胞分选和高通量 DNA 测序相结合的技术(FACS-seq)将细胞按照表达水平分组,并对每个组内的启动子区域进行测序。这些数据用于训练一个 CNN 模型,模型接受 DNA 序列作为输入,并输出活性预测。总体而言,模型预测对测试数据具有良好的泛化能力,对于所有库来说,R 2 值均大于 0.79,这在复杂的序列中是一个显著的成就。这种利用大规模并行分析的方法具有广泛的适用性。例如,Jores 等人为包括拟南芥、玉米和高粱在内的植物物种构建了合成启动子,并训练了一个 CNN 来预测启动子强度。
大规模并行分析并不是生成大型数据集的唯一方法,存在其他不易在处理中引入偏差的方法。例如,Hollerer 等人使用报告系统创建了一个大型数据集,直接将序列与功能联系起来,并应用于开发高精度预测 RBS 翻译活性的深度学习模型。研究人员构建了一个包含 30 万个细菌 RBS 的库,并将其放置在与重组酶相邻的特定 DNA 序列上游。
通过对包含 RBS 和重组酶位点的区域进行测序,研究人员可以通过测量每个RBS序列中重组结构的比例来评估功能。他们利用这个数据集训练了 ResNet(一种 CNN 变体),最终得到一个高精度预测 RBS 功能的模型(R2 = 0.927)。值得注意的是,上述策略并不局限于 RBS 优化,也可以用于其他任务,包括基于转录或翻译机制的生物传感器设计或启动子序列优化。尽管使用合成序列生成多样化的库具有极好的潜力,但这种方法也存在一些局限性,比如使用纯随机序列导致许多元件无法工作的问题。天然遗传元件在其表现上存在偏见的另一面是,纯随机的部分也可能有低成功率。
研究人员通过采用半理性方法来解决这个问题
,例如在已知能产生功能启动子的调控元件中插入随机序列,以及使用模型预测来选择富含中等或强功能元件的文库。此外,序列的长度最终会限制库的多样性。合成和测序较长区域的能力可能会导致覆盖度和数据质量下降,在较长序列的情况下会产生偏差。研究人员必须在序列读数长度、库大小和测序深度之间进行权衡。
将“元件”定义为特定的序列区域的策略需要平衡的是基因调控的复杂性。例如,Zrimec 等人表明,编码区和非编码区之间的相互作用对于决定基因表达水平非常重要。尽管他们证明了 DNA 序列可以用来直接预测 mRNA 丰度(在包括酿酒酵母、拟南芥、人类等多种广泛的模式生物中,平均 R2 = 0.6),但值得注意的是,从他们的深度学习结果中得出的重要结论是,决定 mRNA 丰度的是调控基序之间的相互作用,而不一定是基序本身。这些结果提醒我们生物元件并不孤立存在。
对于合成生物学应用,模型不仅需要具有预测性(例如,从序列到预测性能),还需要具备生成性(例如,从期望的性能到序列,图 3B 所示)。非深度学习的例子已被证明在工程生物学社区中非常有价值。例如,RBS 计算器可以基于热力学模型生成新的设计,基于遗传算法的方法已成功生成了合成的 5' UTR 序列。
机理/机械模型方法非常强大,但需要专业知识来确定哪些特征对性能有贡献。基于深度学习模型的生成方法是一个令人兴奋的发展领域,因为这些工具正朝着能够进行反向工作的能力发展。例如,在他们对酵母启动子的研究中,Kotopka 和 Smolke 使用 CNN 模型实施了序列设计策略,最终展示了最佳算法生成了强的常表达或者诱导启动子。
然而,传统的设计优化方法容易出现实际问题,包括计算效率低和易陷入寻求局部最优解的倾向。此外,这些算法对序列多样性没有约束,这在需要生成许多不同库变体的情况下可能会造成问题。深度生成模型有解决这些差距的潜力,包括变分自动编码器、自回归模型和生成对抗网络等模型。其中一个例子是 Linder 等人开发的一个深度探索网络框架。他们的方法优化了所需函数的适应度,通过使用惩罚超过阈值的序列相似性的相似性度量来显式地最大化序列多样性。
生成模型在肽工程领域也取得了一些成功,尤其是解决与短链肽有关的简单问题,包括抗菌肽的设计。
几何深度学习的快速发展促进了生物技术领域中结构到功能学习研究的爆炸式增长。其中最引人注目的案例之一是 DeepMind 的 AlphaFold 2 蛋白质结构预测模型,该模型具有足够高的蛋白质结构预测准确性,可用于替代昂贵且耗时的蛋白质晶体学。该模型以蛋白质序列和与相似蛋白质的多序列比对作为输入,并在三种不同的数据结构上进行学习:序列、氨基酸对相互作用和模型生成的蛋白质的原子级 3D 结构。
3D 结构由一组不相连的节点表示,每个节点对应于每个氨基酸,每个主链带有相应的氨基酸侧链。使用几何等变的注意机制来利用 3D 空间几何中固有的旋转和平移对称性。蛋白质领域中的其他应用包括蛋白质工程和序列-功能映射。例如,Gelman 等人证明了深度网络(如卷积网络)在从深度突变扫描实验数据进行训练时能够准确预测新的未知序列变异体的功能。
现有的 RNA 结构相对于蛋白质结构数据较少,预测 3D RNA 结构的问题比蛋白质折叠问题更加困难。虽然>10万种蛋白质结构已被鉴定,但仅有少数 RNA 结构具有高保真度。为了克服这个限制,Townshend 等人采用了一种有趣的技术,他们将问题重新定义为使用深度学习模型对 FARFAR2 算法生成的结构预测进行评分。这扩大了可用数据集,该数据集仅包含 18 个 RNA 结构。对于训练数据集中的每个 RNA 分子,生成数千个候选结构并学习预测候选结构与真实结构之间的相似性是相对简单的。所学习的结构评分函数被称为原子旋转等变评分器(ARES),与现有的非机器学习技术相比,它实现了准确性的显著提升。
近年来,小分子图谱的结构学习在药物发现和药物再利用领域得到了迅速发展。例如,Stokes 等人利用图神经网络预测小分子中的抗生素行为,在小鼠模型中确定了一种名为 halicin 的新型药物作为有效的抗生素。分子动力学模拟等其他领域也经历了类似的增长。
计算机视觉是深度学习取得显著进展的领域之一。在合成生物学中,图像处理应用包括自动检测图像中的特征,例如平板克隆形成或显微镜数据分析。图像分析任务的两个示例包括分类(例如,识别是否存在克隆)和分割(例如,识别图像中每个细胞对应的像素集)。分类是这些任务中较简单的,传统的计算机视觉中的经典 CNN 算法,如 LeNet-5、AlexNet 和 ResNets,就是为这类任务开发的,这些经典算法传统上涉及海量参数的神经网络(例如,AlexNet 使用了大约 6000 万个参数)。更小型化的版本,如 MobileNetv2 已经出现,为减少这种复杂性提供了实际可行的替代方案。
分割,即识别图像中物体的精确位置,是一项更复杂的任务,但特别有助于定量。例如,分割对于检测显微镜图像中细胞的位置非常有用,这样就可以提取荧光值。随着 U-Net 算法的引入,该领域取得了重大突破。U-Net 是一种在生物医学数据上表现出色的 CNN 算法。对于单细胞分辨率数据,还有其他重要的深度学习算法,包括 DeepCell、DeLTA、YeaZ、MiSiC 和 CellPose。图像分析算法还能够处理更高级的分析任务,例如在延时图像中逐帧跟踪细胞,以及处理 3D 图像数据。
与其他领域相比,合成生物学问题的数据标注通常非常昂贵,因为需要具有相关的专业知识,有时还需要完整的基于实验室的数据收集流程。这一成本对于需要大量训练数据的深度学习模型来说是个大问题。我们需要确保相关人员不会浪费时间和资源来标记不会为模型提供太多附加信息的数据。选择特定的数据进行标注或实验,是机器学习社区中被称为主动学习的一种最优实验设计形式。在深度学习问题中采用这种方法可以显著降低数据集创建的成本。
目前,在工程生物学中尚未广泛使用深度学习方法进行最优实验设计;然而,实验室自动化的潜力和基于模拟的初步结果表明这是未来研究的一个有利领域。Treloar 等人使用深度强化学习来控制一个在连续生物反应器中生长的微生物共生体系的模拟化学稳态模型。
作者通过同时运行五个生物反应器,在单次 24 小时实验中证明了可以学习到满意的控制策略,并且深度强化学习可以用于决定连续化学稳态系统的最佳输入和控制操作序列,从而最大限度地提高微生物共培养生物过程的产品产量。
这构成了深度学习驱动的最优实验设计的计算示例,其中使用强化学习来推断控制复杂系统的生物反应器的近似最优输入序列。未来在最优实验设计方面可以借鉴机器学习的现有方法,例如已用于代谢工程应用的方法。
尽管深度学习模型通常是在计算机上实现的,但最近的几项研究表明,可以使用生物分子组件构建 ANN 模拟器。这些工程化的生化系统和活细胞能够执行计算,并“学习”解决简单的基准优化问题。这能成为可能的关键原因是,诱导基因对化学诱导剂的反应通常类似于诱导剂浓度的 S 型函数,并且可以作为神经元模型中的非线性函数。
基于此,Moorman 等人提出了生物分子神经网络的理论架构,即动力化学反应网络,可有效地实现 ANN 计算,并证明了它在分类任务中的应用。作者强调了分子隔离对于实现负权重值和在其称为生物分子感知器的元件中的 S 型激活函数的有用性。接着,Samaniego 等人在理论上证明了互相关联的磷酸化/去磷酸化循环可以作为多层生物分子神经网络运行。
作为应用,相关研究者设计了理论上表现为线性和非线性分类器的信号网络。在 Sarkar 等人的研究中,他们在大肠杆菌细胞中实验性地实现了一个单层 ANN,证明了通过工程化细菌实现 ANN 功能的湿实验系统可以执行复杂的计算功能,如多路复用、解复用、编码、解码、多数函数或 Feynman 和 Fredkin 门。在 Li 等人的研究中,ANN 被实现在通过种群感应分子进行通信的细菌共生体中。
然后,利用这些工程化的共生体,识别 3×3 二进制模式。Prakash 等人开发了一种新型的基因开关—— memregulons,它同时充当记忆系统和逻辑门,并将其设计在大肠杆菌细胞中,以实现一种强化学习算法,使工程细菌能够玩井字棋游戏。通过在每场训练比赛获胜或失败后应用外部化学物质持续修改 memregulons 的相对表达来实现学习。细菌通过与其他玩家或其他细菌无监督地进行对战学习。
在 Sarkar 等人的研究中,利用分布在不同细菌群体中的 99 个简单遗传线路,通过选择性地表达 4 种不同的荧光蛋白,解决了化学产生的 2 × 2 迷宫问题,证明了使用工程细菌进行分布式细胞计算和优化的可能性。在 van der Linden 等人的研究中,作者从遗传学角度实现了一个能够进行二元分类的感知器。实现这一目标的方法是使用 Toehold 核糖体调节因子,构建与阈值函数耦合的体外转录和翻译加权和运算电路,实现了这一合成基因电路的二元分类功能,即只有在超过期望的最小输入数量时,才会表达单一的输出蛋白。
Pandi 等人利用代谢组分,提出了一种通过全细胞和无细胞系统中实现代谢回路的生物计算方法。这一实现依赖于用于构建代谢感知器的代谢传感器,这些感知器是模拟器,通过可调节权重将多个输入代谢物的浓度进行线性组合。基于此,作者构建了两个四输入的代谢感知器,用于对代谢物组合进行二元分类,从而为通过代谢感知器网络进行快速可扩展的多重感知奠定了基础。
在此基础上,Faure 等人最近展示了人工代谢网络可用于实现 RNN,经训练后可以预测生物体响应其环境的生长速率或共识代谢行为。由于所提出的人工代谢网络可以优化各种目标函数,因此可以在各种工业应用中用于获得最佳解决方案,例如寻找最佳培养基以生产所需化合物,或设计基于微生物的决策系统来进行代谢生物标志物或环境污染物的多重检测。
在生物分子水平上实现的 ANN 和机器学习范式的生物学体现,为研究生物细胞工程解决复杂计算、决策和优化问题开辟了新的研究方向。
深度学习模型通常对数据需求较大,这对于合成生物学领域而言是一个重大挑战,因为在该领域很难生成大规模的数据集。然而,有几种潜在的解决方案可以应对这个问题,例如迁移学习、使用模拟数据、数据增强策略或结合基于物理模型的约束方法。附录中介绍了这些思路,并讨论了它们在合成生物学应用中的潜在作用,感兴趣的读者可以点击再创此篇文章末尾的「阅读原文」查看。
合成生物学与深度学习交叉研究在元件设计、数据分析自动化、最优实验设计以及许多其他应用方面具有巨大的潜力。我们在本综述中重点讨论了深度学习方法,但值得注意的是简单模型也具有独特的优势。深度学习模型由于参数数量和复杂的结构而往往成为黑盒子,降低了模型的可解释性。
在转向深度学习模型之前,通常建议先尝试更简单的机器学习方法来了解它们的性能。例如,Sample 等人在他们的 5' UTR 数据集上测试了线性回归模型,这对比较其与基于卷积神经网络的结果很有帮助。此外,了解特定应用中性能和复杂性之间的权衡也是有帮助的,而针对探索这一点的研究可能非常有价值。例如,Nikolados 等人比较了逐渐增加复杂度的模型,以比较它们预测蛋白质表达能力的能力。最后,因为深度模型需要大规模的训练数据集,所以可用数据的数量也对是否适合使用深度学习方法产生重要影响。
总体而言,深度学习方法已经对合成生物学领域产生了重大影响,预计在这一领域将取得重要进展。本综述中旨在概述合成生物学中深度学习的方法和应用,强调了在处理生物数据集时存在的挑战和机遇,希望帮助工程生物学的研究人员将深度学习方法和见解纳入他们的工具箱中。
