【自动化/机器学习】吕华课题组发展高通量聚合物后修饰平台高效探索功能多肽化学空间

近日，北京大学化学与分子工程学院吕华课题组在Nature Synthesis杂志上发表题为“A high-throughput platform for efficient exploration of functional polypeptide chemical space”的论文。在这项工作中，作者充分利用硒醇取代反应的高效性，建立了一个含硒聚多肽高通量聚合后修饰合成平台。在自动化与机器学习的帮助下，该平台能够在几乎没有先验知识的情况下探索聚氨基酸化学空间并从中发现功能多肽。

图1. 本文工作示意图

简单化学结构的单体能够组合排列形成高性能的高分子材料，例如大自然使用4-5种核苷编写了所有生命体的遗传信息，用20余种氨基酸单体得到了具有精细高级结构和丰富生理功能的多肽和蛋白质。近年来，人们也发现人工合成的均聚物或无规共聚物可以一定程度上模拟天然蛋白质的结构与性质。

随着人类社会不断地发展，新的问题与挑战对发展高性能/多功能的聚合物材料提出了更高的要求。材料学家可以通过共混/共聚等方式改进现有材料的性能，但聚合物单体结构和组成的多样性使得聚合物的化学空间过于庞大，其组成-性能的非线性关系会导致在高维空间中的材料理性设计变得十分困难，对高性能聚合物的发现提出了巨大的挑战。计算机视觉以及语言模型的发展使人们认识到机器学习 (machine learning) 模型在加速科学研究中有极大的潜力，运用机器学习从过往的数据中发现对材料设计的关键特征，可以指导材料构效关系的研究，并加速材料的发现过程。

吕华课题组长期致力于发展通过N-羧基环内酸酐 (NCA，N-carboxyanhydrides) 的开环聚合制备聚氨基酸的合成方法，该策略可制备高分子量、结构多样的多肽材料，并可放大合成（公斤级），其产物被广泛应用于生物医学工程等研究中。

图2. A) 含硒NCA单体的制备及聚合；B) 聚合后修饰前体聚合物PSeO₂Na的制备及其后修饰过程

在基于数据的科学研究中，高通量、高质量的数据不可或缺，但NCA自身结构的不稳定性导致其单体制备过程复杂，开环聚合通量较低，难以应用于大规模合成筛选中。为了解决这一问题并加速聚氨基酸材料的发展，在本文中，作者基于硒化学，设计合成了一种含硒NCA单体并通过开环聚合制备了相应的聚氨基酸（图2A），该聚合物的侧链能够发生硒亚砜氧化消除反应，消除产生的亚硒酸能够被硼氢化钠还原为高亲核性的硒醇负离子。硒醇负离子可以在水溶液中与多种亲电试剂发生高效定量的修饰反应（图2B）。利用这一策略，只需合成一种前体NCA即可实现聚氨基酸侧链高通量衍生化；同时仅向聚合物侧链引入了一个硒原子，最大程度地减少了修饰官能团对聚合物结构的干扰。

该体系可作为现有高通量聚合制备聚合物合成方法的有力补充，进一步加速新材料（尤其是生物材料）的发展，有以下如下特点：

1.目前大部分聚合物高通量合成的产物主要是聚烯烃，当应用于生物体系时，此类材料生物可降解性较差，难以满足许多生物医学应用的需求。而本文中的聚合物库骨架为聚多肽结构，具有良好的生物相容性和生物可降解性。

2.由于硒醇负离子的高亲核性，大部分卤代烃可以与硒醇负离子发生定量的反应，可通过修饰基投料比精确控制聚合物的侧链组成。

3.聚合后修饰由于使用的是同一批次合成的聚合物，因此可以消除聚合物分子量以及分散度对性能测试结果的影响。

4.整个后修饰反应过程在水相中进行，可通过高通量脱盐板批量且快速地从合成体系中纯化聚合物，可方便地转移到后续的生物分析中。

作者进一步结合自动化技术与贝叶斯优化方法，构建了基于设计-合成-表征- 学习（design-build-test-learn）的闭环材料发现流程。在由七种修饰基组成的化学空间中，该流程在4天内实现了600余种无规共聚物的设计、合成与表征，显著提高了此类含硒无规聚多肽谷胱甘肽过氧化物酶样催化效果（图3）。

图3. 通过贝叶斯优化 (BO) 迭代搜索快速鉴定到具有类似GPx催化活性的含硒聚多肽。A) 修饰基结构；B) 随机搜索 (random search) 和贝叶斯优化搜索 (BO) 对比验证；C) 从数据库中选择具有低 (lanes 1-3) 和高(lanes 4-7) GPx活性的RHPs进行验证。

本工作建立的高通量合成平台为加速聚氨基酸材料的发展提供了新的解决方案。在后续的工作中，课题组将继续深化发展这一合成思路的方法与应用场景，尝试解决人工酶、抗菌肽设计以及生物大分子递送等领域中的重要问题，敬请期待！

本文的通讯作者为北京大学化学与分子工程学院的吕华教授，第一作者为前课题组成员吴广启博士，他于吕华课题组获得博士学位，目前正在麻省理工开展博士后研究，尝试运用数据科学与自动化等技术，加速高分子材料的发现。该工作受到国家重点研究发展计划、国家自然科学基金、北京市自然科学基金、中国博士后科学基金、李革赵宁生命科学青年研究基金和北京大学博雅博士后基金等项目经费的支持。感谢昌平实验室张骏博士与麻省理工Connor W. Coley教授在机器学习方面提供的指导与帮助！

作者：ZHS 审校：LH

DOI: 10.1038/s44160-023-00294-7

Link: https://doi.org/10.1038/s44160-023-00294-7