解脂耶氏酵母是一种重要的工业酵母。我们之前的研究从大约 100 篇解脂耶氏酵母相关论文中(大约 3000 个实例)手动提取信息,这花费了一名有经验的研究生 400 多个工作小时。通过 GPT-4 的工作流程,我们从 115 篇论文中额外提取出约 1670 个数据实例,并将其组织成 28 个可能影响生产浓度(产量)的特征(表 2 可在原文链接中查看)。除了 GPT-4 从文本中提取的实验数据外,我们还开发了一个分子库存,包含如热力学属性、生物生产路径步骤、前体物质和辅因子成本等数据。这个分子库存是我们的 ImpactDB 在线数据库(impact-database.com)的重要组成部分,我们将在未来持续更新它。有了这个集中的库存,我们可以直接搜索每个底物/产物的信息并填充 ML 特征,从而在数据库构建过程中节省宝贵的时间。为了进一步验证 GPT-4 的适用性,我们通过计算特征重要性、特征差异和主成分分析(PCA)来比较手动提取的数据和 GPT 提取的数据。GPT 提取的数据在特征重要性的分布上与手动提取的数据相似(图 3a),这表明新生成的数据遵循了与手动提取的数据相似的模式。有趣的是,对于 28 个特征中的 19 个,GPT 数据集比手动提取的数据集具有更高的特征方差。此外,主成分分析(PCA)表明特定条件下 GPT 提取的数据的簇间平均距离比手动提取的数据高 7%(图 4)。手动提取数据集的聚类主要受碳源和产品辅酶成本的影响。相比之下,除了碳源和辅酶成本外,GPT 提取的数据还根据培养条件和遗传工程特征进行聚类。这些发现表明,GPT-4 能够在论文中捕捉到更多的独特性,并通过复杂的上下文数据进行推理,生成偏差较小的生物制造实例。图 3:手动提取的解脂耶氏酵母数据集与 GPT-4 提取的解脂耶氏酵母数据集的比较。a. 使用随机森林回归确定的特征重要性,从高到低排列。b. 规范化的特征差异。(紫色:手动提取的数据集,黄色:GPT-4 提取的数据集。)
图 4:使用 K-均值无监督学习的主成分分析 (PCA)。(a)手动提取的数据集的 PCA。(b) GPT-4 提取的数据集的 PCA。注意图 a 和图 b 之间的轴比例差异。