中科院生态环境中心EST｜机器学习辅助质谱筛查识别全国范围河口水域中乙酰胆碱酯酶抑制剂

转自：新污染物筛查与评估

题目：Identifying Organic Chemicals with Acetylcholinesterase Inhibition in Nationwide Estuarine Waters by Machine Learning-Assisted Mass Spectrometric Screening

摘要

神经毒性在全球水环境中经常被观察到，威胁着水生态系统和人类健康。然而，仅有极少一部分（约1%）的神经毒性作用能够通过已知的关注化学物质来解释。在本研究中，我们整合了机器学习、非靶向分析以及体外生物测试，识别了中国沿海河口水域中引起乙酰胆碱酯酶（AChE）抑制的神经毒性驱动因子。通过机器学习在广泛的化学空间中预测了AChE抑制剂，并将预测结果整理为疑似筛查列表，用于指导高分辨质谱（HRMS）对河口水样中AChE抑制剂的筛查。最终，鉴定出了60种具有已知和目前未知结构的化学物质，解释了观察到的AChE抑制效应的82.1%。令人意外的是，多不饱和脂肪酸被发现是神经毒性驱动因子，占总体作用的80.5%。这项概念验证研究表明，基于机器学习的毒理学预测能够实现虚拟分级功能，从而定位具有生物活性潜力的HRMS特征。我们的方法有望实现与各种体外生物学终点相关的有机污染物的快速全面筛查，为大规模水质监测提供支持。

研究背景

近年来，神经毒性问题引起了越来越多的关注，尤其是乙酰胆碱酯酶（AChE）抑制被认为是与神经毒性相关的最常见的分子起始事件之一。在地表水中提取的有机混合物进行的生物测试中，常观察到对AChE活性的抑制作用。因此，AChE被广泛用作化学品安全评估的生物标志物。现有研究表明，有机磷和氨基甲酸酯类杀虫剂是已知的AChE抑制剂，并被认为是环境样品中的神经毒性驱动因子。然而，这些关注化学物质对水体中观察到的神经毒性贡献知之甚少。一项研究显示，已知化学物质（包括有机磷/氨基甲酸酯杀虫剂和药物）仅能解释地表水样本中不到1%的神经毒性。因此，迫切需要新的方法来识别剩余的神经毒性驱动因子。

由于化学混合物的复杂性和多样性，识别环境样品中的生物活性驱动因子需要综合的测试和评估方法。效应导向分析（EDA）是一种经典且可行的方法，通过结合色谱分离与体外生物测试，降低有机化学混合物的复杂性，以识别生物活性驱动因子。此过程可重复多次，以分离主要生物活性部分，并通过高分辨质谱（HRMS）进行化学鉴定。然而，分离出的主要活性部分可能包含数十到数百个HRMS特征，而真正具有生物活性的可能只有一两个，这降低了化学鉴定的效率。为解决这一挑战，改进了色谱分离的分辨率，使每个组分可以在秒级时间内收集，从而进一步减少活性部分中的HRMS特征数量。另一种方法是开发蛋白亲和纯化结合非靶向分析，直接从环境样品中获取特定的生物活性化学物质。该方法通过靶向蛋白直接分离环境混合物中的蛋白配体（即活性化学物质），前提是潜在生物活性可以与蛋白结合。此外，还尝试将计算毒理学建模（如定量构效关系，QSAR）与基于HRMS的非靶向分析整合，以预测已鉴定化学物质的生物活性。然而，HRMS特征首先通过搜索现有优先化学品清单来鉴定，涉及范围有限。

将预测毒理学整合到非靶向筛查中是一种有前景的新方法，有助于识别环境样品中的生物活性化学物质。值得注意的是，近年来机器学习的进展显著提高了传统QSAR模型的准确性和应用范围，其在海量数据中发现模式的能力具有巨大优势。随着高通量筛查（HTS）的快速发展，针对各种毒理学终点的活性和非活性环境污染物数据集（如Tox21数据库）正在扩展并可供使用。这些化学库为机器学习模型开发提供了大规模的高质量训练数据集，能够预测更大化学空间（如神经毒性）中的环境污染物生物活性。与将计算毒理学模型（如QSAR）作为筛选工具用于优先识别具有生物活性的化学物质不同，本文提出可将其用作虚拟分离工具，用于非靶向筛查，以高效降低化学混合物的复杂性并提高化学鉴定效率。此过程涉及使用基于机器学习的QSAR模型在大化学空间中虚拟筛选生物活性化学物质，以替代EDA中结合生物测试的色谱分离。然后利用疑似生物活性化学物质快速且全面地分离质谱筛选中的活性HRMS特征。

本研究将机器学习整合到非靶向分析中，用于快速全面地识别中国大陆河口水体中AChE抑制的神经毒性驱动因子。基于混合河流地表水样本建立了这一方法的概念验证，并通过提取的有机化学混合物的体外生物测试显示整体AChE抑制作用。开发了基于机器学习的QSAR模型，用于在CompTox化学物质数据库中虚拟筛选AChE抑制剂。通过预测的AChE抑制剂组成的疑似筛查列表进行非靶向分析，表征水体环境中的AChE抑制剂。研究的最终目标是识别已知和未知的AChE抑制剂，以解释地表水中观察到的更高比例的AChE抑制效应。

主要发现

1.混合河口水提取物对AChE活性表现出抑制作用

为了评估河口水体中有机混合物对AChE活性的整体抑制作用，将来自19条河流的52个采集水样混合。使用不同稀释度的混合河口水有机提取物进行生物测试，结果发现化学混合物在相对富集因子（Relative enrichment factor，REF）为500时对人类AChE活性表现出高达-79.5%的抑制效果。对于鳗鱼AChE活性，在REF为250时也观察到抑制作用，而在REF为500时，抑制率达到-88.6%（相对于阳性对照）（图1）。相比之下，混合空白场地样本的有机提取物在测试的REF范围内对人类和鳗鱼AChE活性均未表现出抑制作用。浓度-效应数据采用四参数Hill方程拟合，得出的人类和鳗鱼AChE的半数抑制浓度（IC50）对应的REF分别为545和388。该结果与以往研究一致，这些研究表明导致AChE抑制的有机混合物的IC50的REF范围为100至1000。这揭示了全球地表水中观察到的神经毒性水平差异。

图1 混合河口水样本有机提取物对AChE活性的抑制作用（均值±标准差，n = 3）。测量结果被标准化至阳性对照（氯吡硫磷-噁唑，表示-100%）和阴性对照（DMSO，表示0%）。

2.在广阔的化学空间中虚拟筛选AChE抑制剂

建立了一种基于集成人工神经网络（ANN）的QSAR模型，用于预测AChE抑制剂。该模型使用81个分子描述符和25个神经元，其准确性（AUC-ROC曲线）在训练数据集和测试数据集上的值分别为0.94和0.86，表明模型具有良好的预测性能（图2a）。根据训练好的ANN模型的敏感性分析，磷酸酯（O═P(X)R1R2）和氨基甲酸酯（NC(═O)O）是排名靠前的分子描述符。通过结构警示预测建模，这两个特征性子结构（即特定的结构片段）也被预测为毒性基团，负责与酶结合并导致AChE抑制（图2b）。根据辛醇-空气分配系数（KOA）和空气-水分配系数（KAW）的化学空间投影（图2c），预测的大多数抑制剂在平衡时主要分布于水相或固相（如土壤或沉积物）。这表明河口是筛选和监测能够引起AChE抑制的化学物质的适宜环境介质。此外，开发了一种基于集成KPLS的模型，用于估算AChE抑制剂的IC50值。当缺乏可用于生物测试的标准品时，预测的IC50值可用于计算已识别AChE抑制剂对河口水体中观察到神经毒性的贡献。在训练数据集中，观察到的AChE抑制剂IC50值与KPLS模型预测值之间的差异通常在10倍以内，表明该模型具有良好的预测性能（图2d）。

图2 AChE抑制剂在广阔化学空间中的虚拟分配。(a)训练好的集成ANN模型用于AChE抑制剂的二分类的接收者操作特征曲线（AUC-ROC）；(b)使用结构警示模型预测提取的AChE抑制剂活性子结构（毒性基团），所用训练数据集与ANN模型相同。每个子结构的SMILES字符串如下所示，部分结果展示于此；(c)预测的AChE抑制剂（预测评分≥50）在辛醇-空气分配系数（KOA）和空气-水分配系数（KAW）上的化学空间投影。(d)使用与ANN模型相同的训练数据集训练的集成KPLS模型在预测AChE抑制剂的半数抑制浓度（IC50）值时的表现。观察到的IC50值来自训练数据集。RMSE为回归模型的均方根误差。

3.全国范围内河口水体中AChE抑制剂的化学鉴定与表征

为了进行分析结构确认，购买了具有商业标准的化学物质，并将水样中测量的化学物质的MS1、MS2和保留时间（RT）与通过分析标准品获得的数据进行比对（图3a）。河口水体通常作为污染物的汇聚地，并提供了大量神经毒物的化学多样性。已识别的AChE抑制剂包含高度多样的分子结构。多不饱和脂肪酸（PUFAs）是化学物质中最丰富的一类（总数=21），包括多种反式PUFAs和过氧化物（图3b）。它们是一类具有高生产量的合成化学物质。PUFAs及其类似物可能来自于多种消费品和工业产品，包括表面活性剂、皮肤护理品和药物，但大多数已生产和使用的PUFAs未公开其结构。此外，PUFAs可被视为一类未知或成分可变的物质、复杂反应产物或生物材料（UVCBs），在当前的监测研究中往往被忽视。其他丰富的化学物质组包括有机磷和氨基甲酸酯类杀虫剂及其类似物（图3b）。我们基于标准品定量了17种化学物质，并基于结构相似且保留时间最接近的化学物质半定量了21种化学物质。所有这些化学物质（n = 38）代表了不同的物质组，并通过Kohonen自组织映射法根据分子描述符进行了聚类（图3b）。通常，这些已识别的AChE抑制剂的测量浓度范围从低于检测线（即

图3 全国范围内河口水体中AChE抑制剂的化学鉴定与表征。(a)通过将已识别AChE抑制剂的MS1、MS2和保留时间（RT）与分析标准品所得数据进行匹配，进行分析确认。这里展示了五种具有AChE抑制活性的代表性已识别化学物质的色谱图。标准品的MS1色谱图（左）和MS2谱图（右）以黑色绘制，而在河口水样中识别的AChE抑制剂以红色显示。现场空白样品中浓度最高的MS1色谱图显示为蓝色，并且在MS2谱图中没有发现已识别抑制剂的特征性结构片段。(b)已（初步）识别的AChE抑制剂的高度多样的分子结构。这些化学物质通过Kohonen自组织映射法，根据计算出的分子描述符被聚类为不同的组。(c)在河口水样（n = 52）中检测到的17种已识别AChE抑制剂的浓度箱线图。这些化学物质基于现成的标准品进行了定量。

4.PUFAs被优先确定为具有AChE抑制作用的神经毒性驱动因子

进行实验室体外测定，以确认经分析证实的化学物质的抑制作用，这些化学物质被预测为AChE抑制剂但未包含在训练数据集中。选定的化学物质，包括PUFA和有机磷化合物，在5 ppb至100 ppm的浓度范围内显示可抑制人体AChE活性，功效高于阳性对照的30%（图4）。在混合河口水样品提取物中观察到的大约82.1%的AChE抑制（即整体毒性）可以使用已鉴定的化学物质来解释（图4）。仅PUFA解释了高达80.5%的总毒性。其余化学物质仅解释了在河口水样中观察到的总毒性的1.6%（图4）。其中，氨基甲酸酯类农药克百威及其类似物占混合水样中AChE抑制作用的0.8%，而有机磷化合物（包括有机磷农药和类似物）占总毒性的0.77%。酚类仅占总毒性的0.03%。

图4 PUFAs被优先确定为AChE抑制的神经毒性驱动因子。(a)生物学验证：通过生物测试验证了分析确认的化学物质对人类AChE活性的抑制作用（测试化学物质浓度范围为5 ppb至100 ppm）。虚线表示阴性对照的平均吸光值，点线表示阳性对照引起的30%的AChE抑制效应。TDCPP是三（1,3-二氯-2-丙基）磷酸酯的缩写。(b)累积效应百分比：通过冰山模型分析，使用毒性单位作为衡量指标，确定混合河口水样中各种化学组对整体AChE抑制效应的累积百分比。

此外，计算了38种AChE抑制剂在每个河口水样中的累积毒性单位（TUchem）（图5）。以混合河口水样的毒性单位（TUbio = 1.83 × 10⁻³）作为基准，52个采样点中有13个点的TUchem值高于基准值，表明这些采样点水样的有机提取物在相似或更低的REF值下可能导致AChE抑制，与混合河口水样表现一致。此外，有研究指出，对于化学混合物，当TUbio值高于10⁻³时，由于其特定的体外终点效应，可能引发生态学关注。以此值作为阈值，超过一半的采样点（即n = 27）可能会引起神经毒性问题（图5）。

图5 河口水样中已鉴定AChE抑制剂的累积毒性单位（TUchem）。基准值（0.00183）为混合河口水样中AChE抑制剂的毒性单位（TUbio）。∑PUFAs表示PUFAs的累积浓度。

原文链接：

https://pubs.acs.org/doi/10.1021/acs.est.4c10230

说明：本推送只用于学术交流，如有侵权，请联系删除。

（转载仅供交流学习使用，侵权必删）

投稿、转载、合作、申请入群可在后台留言（备注：姓名+微信号）或发邮件至sthjkx1@163.com

【点击下方超链接阅读16个栏目推文】

1.【直播】	9.【院士】
2.【视频】	10.【综述】
3.【健康&毒理】	11.【写作】
4.【水】	12.【Nature】
5.【气】	13.【Science】
6.【土】	14.【WR】
7.【固废】	15.【EST】
8.【生态】	16.【JHM】