如果不使用自动化,我们无法产生足够数量和质量的数据来进行有效的机器学习。我们在生物学中面临的情况类似于使用邮寄的纸质图片:大多数检测是低通量和手工的,大多数表型数据是在同一个实验室中产生和分析的。虽然情况正在开始改变,但变化的速度还不足以支持机器学习方法(基因组学领域除外)。更糟糕的是,历史数据并不总是满足机器学习有效的要求(例如缺乏标准化的数据收集),因此在收集新数据时必须考虑到这些需求。蛋白质结构预测领域的 CASP 竞赛提供了一个很好的例子,展现了如何促进社区为此共同努力。
大规模的高质量数据是必要的,但不是充分的:适当的实验设计是利用机器学习的基础。这个领域的机会是双向的:为了训练机器学习算法而生成高质量数据,需要仔细考虑影响反应的不同效应的实验设计;而机器学习可以用来选择下一组实验,以提高实验数据质量并减少估计误差。在这一领域,“机器人科学家”(化学实验规划者)已在合成化学领域取得成功,并有望在合成生物学领域发挥重要作用。
因此,我们需要投资于将机器学习算法与高通量、快速周转、自动化表型分析方法相结合的能力,以解决其解决方案具有广泛适用性的生物问题(图1)。可能的方法包括机器人液体处理平台、微流体或云实验室。未来的挑战包括实时获取数据、开发全面的无创检测、减少人工操作以及制定确保可复现性的工作流程和数据标准。
▲
图 1 所示。合成生物学、机器学习和自动化可以相互补充。它们结合在一起,可以显著提高我们的生物工程能力,并产生新的生物医学应用。