薄层色谱(TLC)广泛用于合成化学实验室,是一种最常用的分析方法,可用于有机反应的监测以及柱色谱分离过程中确定目标化合物的位置。这项技术简单易用,成本低廉,却十分强大,能给出非常丰富的信息,在有机合成实验室中具有不可替代的地位。然而由于影响因素很多,化合物的Rf值在未规范实验条件下的数值往往重现性较低;此外色谱条件的确定也需要很多经验,往往要进行多次尝试才能获得一个较理想的分离效果。北京大学材料科学与工程学院的莫凡洋课题组搭建机器人平台,开发了TLC分析的自动化技术,获得了大量标准化的TLC数据,进而应用机器学习对数据进行回归分析,得到一个能够进行精准预测的模型。在实际应用中,模型能够在秒级时间内预测化合物在任意指定溶剂组合条件下的Rf值,从而避免大量试错,提高实验室工作效率。相关研究成果发表于Chem,莫凡洋副教授和南方科技大学张东晓教授为本论文的共同通讯作者,北京大学材料科学与工程学院为第一通讯单位。北京大学博士生徐浩和林京龙是本论文的共同第一作者。研究者首先搭建了两个机械臂组成的自动化TLC平台,利用无线网络通讯,在电脑端用python程序实现自动化流程的控制。首先由1号机械臂进行毛细管取样与点板,再由2号机械臂操作TLC板进行展开以及显色拍照记录数据,最后由照片自动识别TLC结果,得到相应Rf值,从而实现自动化获取TLC数据,为构建标准化TLC数据集进行机器学习搭建了高效可靠的平台。其硬件平台如图2所示。自动化TLC流程的详情见以下视频,视频由莫凡洋老师提供,也可以前往B站观看。
https://www.bilibili.com/video/BV17R4y1j7jz在自动化TLC平台获取的4944条TLC数据基础上,研究者利用MACCSKey分子指纹和物理化学描述符,如分子量(MW)、拓扑极性表面积(TPSA)、氢键给体数量(HBD)等,将分子转化为计算机可以处理的数值结构;采用加权向量化编码技术表示流动相信息。进行特征工程之后,研究者通过一系列常见的机器学习算法学习特征与Rf值之间的关系,取得了较好的预测精度。图3. (A)模型输入与输出示意图;(B)MACCS分子指纹示意图与输入溶剂的加权向量示意图;(C)机器学习结果示意图。
研究者通过预测模型的平均绝对误差(MAE)的百分比增加来评估所使用的分子描述符的相对重要性。研究发现TPSA重要性最高,TPSA、HBD与Rf值之间存在明显的负相关关系,这些都非常符合化学家的直觉和知识。然而Rf值和描述符之间的关系以前是模糊的,在这项工作中首次以统计的方式揭示了它们之间的关系。通过该机器学习模型,可预测任意流动相体系、任意溶剂比例下的化合物Rf值,并且对于不同的化合物体系,模型可以给出适当的溶剂系统,以促进色谱分离。在前两个工作的基础上,莫凡洋老师课题组进一步发展了自动化TLC分析与收集柱层析产物的平台。利用程序与机械臂,自动对柱层析得到的溶液进行TLC分析,并在找到目标产物后收集相关溶液,最后得到分离后的产物溶液。详情见以下视频,视频由莫凡洋老师提供,也可以前往B站观看。
https://www.bilibili.com/video/BV1C44y1p7mR通过搭建自动化TLC平台,一方面提高有机实验中柱层析分析与提纯的工作效率,另一方面实现TLC数据标准化,构建高质量的数据集来训练机器学习模型,为柱层析工作的智能化提供新的思路。
目前该工作仍存在一些局限性,一方面是TLC的Rf绝对值受实验条件影响较大,机器学习预测的绝对值不一定适用于不同实验室的个体任务中,但其预测的相对值有一定参考意义。另一方面,目前该工作对于TLC拖尾、特殊显色、仪器串联等问题还需进一步优化与升级功能。
参考文献:
1. Xu, H. et al. High-throughput discovery of chemical structure-polarity relationships combining automation and machine-learning techniques. Chem (2022). https://doi.org:https://doi.org/10.1016/j.chempr.2022.08.008
点击左下角的"阅读原文"即可查看原文章。
GoDesign
ID:Molecular_Design_Lab
( 扫描下方二维码可以订阅哦!)