浙江大学刘璟团队EST｜基于机器学习的环境致肥胖物质预测模型

文章信息

第一作者：吴思颖

通讯作者：刘璟教授

通讯单位：浙江大学

https://doi.org/10.1021/acs.est.4c05070

亮点

• 构建了基于分子起始事件（Molecular initiating events，MIEs）的环境致肥胖物质预测模型。

• 结合机器学习预测模型和3T3-L1前脂肪细胞成脂分化实验验证，鉴定了四种新型环境致肥胖物质。

研究进展

环境致肥胖物质（Obesogens）通过破坏人体脂质代谢平衡导致肥胖，其残留在工业产品及日常用品中被广泛检出，然而目前缺少相应的监管政策。由于体内和体外实验评估化合物致肥胖效应耗时久、成本高，无法应对大量物质的快速筛查，亟需构建适用于高通量筛选环境致肥胖物质的预测模型。分子起始事件（Molecular initiating events，MIEs）是预测化学品暴露引起复杂效应终点的关键，将MIEs作为预测模型的重要特征可提高模型的可解释性。本研究首先基于肥胖相关的6个MIEs构建QSAR模型，采用随机森林、支持向量机、极端梯度提升和平衡随机森林等算法构建的六个MIEs（PPARγ、GR、LXR、RXRα、C/EBPβ、SREBP）的QSAR模型准确率均达70%以上。并基于化学品致肥胖效应细胞实验数据集，建立了机器学习预测模型，该预测模型对6个MIEs的QSAR模型整合，具有较高的准确率，基于外部验证集的预测准确率为0.78。沙普利加和解释（Shapley additive explanations，SHAP）分析发现分子疏水性（SlogP_VSA）和直接静电相互作用（PEOE_VSA）为化学品致肥胖效应的关键分子描述符。对高度关注物质（Substances of very high concern，SVHC）清单中的12种物质进行致肥胖效应预测，并采用3T3-L1前脂肪细胞成脂分化实验进行验证。该模型正确预测了10种物质，鉴定出UV-320、p262-NP、OP1EO和硫丹等四种新型致肥胖物质（图1）。

图1 图文摘要

首先建立MIEs数据集和化学品致肥胖效应细胞实验数据集。MIEs数据集，即从EPA网站上下载ToxCast体外试验数据，将ToxCast体外试验数据库中的数据转化为用于构建模型的二分类值。判断标准为：若关键分子事件对应的所有试验结果中，半数以上的试验结果为有激动作用，则标签为1，否则标签为0，共建立PPARγ、GR、LXR、RXRα、C/EBPβ、SREBP共6个MIEs数据集。化学品致肥胖效应细胞实验数据集的构建流程见图2A，使用关键词“Differentiation”和“3T3-L1”在Web of Science数据库中共搜集到文献8533篇，对所有参考文献进行相关性评估，仅纳入用3T3-L1前脂肪细胞成脂分化实验评估化合物致肥胖效应的文献，共纳入文献368篇。对同一化合物的多篇相关文献的实验结果进行整合，建立了一个包含432种化合物及其致肥胖效应的数据集。化学品致肥胖效应细胞实验数据集和MIEs数据集中重叠的化合物设为外部验证集1（Screening set 1，SS1），用于后续QSAR模型的整合。SS1中共包含149种化合物（包括65种活性化合物和84种非活性化合物），这些化合物同时具有MIE实验测试结果和致肥胖效应的信息。这些化学物可用于（1）检验5-slice模型是否能建立MIEs与AO之间的关联（阳性物质的评分是否高于阴性物质）；（2）验证筛选系统的预测能力并找到最佳截断值，该截断值能将尽可能多的阳性物质和阴性物质分隔开。致肥胖物质数据集中多篇实验文献支持且结果一致的化合物因其可信度较高，设为外部验证集2（Screening set 2，SS2），用于重新评价综合筛选系统的分类能力。SS1和SS2中的化合物被排除在模型构建的数据之外。各数据集的相互关系如图2B所示。

图2 构建化学品致肥胖效应细胞实验数据集的文献搜索流程图（A）本研究所构建数据集的相互关系图（B）。

基于MIEs数据集，采用随机森林算法、支持向量机算法、极致梯度提升树算法和平衡随机算法构建QSAR模型，利用测试集评价预测模型优度，优化预测模型参数，从四个模型中选择表现最优模型作为该关键分子事件的最佳子模型。对6个关键分子事件的最佳子模型运用5-slice 方法整合，并使用外部验证集SS1对整合后的模型预测效果进行评估。应用SS1对致肥胖物质模型进行评估的结果表明，ToxCast实验数据的AUC值为0.74，模型的预测结果的AUC值为0.78，均达到了较高的预测能力（图3）。选择不同截断点对分数进行划分，高于截断点则预测结果为致肥胖物质，低于截断点则预测为非致肥胖物质，将预测结果与真实结果比较计算平衡准确率，选择平衡准确率最高的数值作为最佳截断点。经过比较，该模型的最佳截断点为1.75，灵敏度和特异度分别为0.95和0.5，平衡准确率为0.73。经验证集SS2评估致肥胖物质预测模型能识别出全部的阳性物质，但对阴性物质存在误判。

图3 致肥胖物质预测模型在SS1数据集上的受试者工作特征（Receiver operating characteristic，ROC）曲线（A）和查准率-查全率（precision-recall）PR曲线（B）。点虚线：ToxCast实验数，线段虚线：模型预测。

采用SHAP方法计算模型输入的207个特征对预测结果的影响程度，并根据shap值对特征进行评估和排序（图4）。分子疏水性（SlogP_VSA）和直接静电相互作用（PEOE_VSA）描述符在多个模型中具有较高的shap值，而且在6个QSAR模型中重复出现，因此被视为预测化合物致肥胖效应的两个关键分子描述符。

致肥胖物质预测模型的关键描述符与已有毒理学研究结论基本一致。分子疏水性（SlogP_VSA）是评估化合物在生物过程中的分配/分布时的重要评价指标，化合物分配到生物体中的剂量直接影响化合物对生物体的活性效应。直接静电相互作用（PEOE_VSA）对于许多生物分子过程（例如蛋白质与配体的结合）至关重要。

图4 基于SHAP值解释的前20个特征的蜂群图。SHAP的绝对值越高，特征对结果的影响越大。红点和蓝点分别代表高特征值和低特征值。PPARγ模型。（B） GR模型。（C）LXR模型。（D）RXRα型。（E）C/EBPβ模型。SREBP模型。

将模型应用于高度关注物质清单（Candidate list of substances of very high concern for authorisation，SVHC）中的物质，共输出67种物质的预测结果。由于这67种物质中大部分都不能在市场上购买到纯度较高的标准品，因选择了12种标准品已上市的物质进行进一步的脂肪生成实验验证。所选物质为6种预测结果为活性的物质：2-苯并三唑-2-基-4,6-二叔丁基苯酚（2-benzotriazol-2-yl-4,6-di-tert-butylphenol，UV-320）、4-(1,1,5-三甲基己基)酚（4-(1,1,5-trimethylhexyl)phenol，p262-NP）、2-[4-(1,1,3,3-四甲基丁基)苯氧基]乙醇（2-[4-(1,1,3,3-tetramethylbutyl)phenoxy]ethanol，OP1EO）、硫丹（Endosulfan）、4-(1-乙基-1,4-二甲基戊基)酚（4-(1-Ethyl-1,4-dimethylpentyl)phenol，p363-NP）、邻苯二甲酸二异戊酯（Diisopentyl phthalate，DiPeP），以及6种预测结果为非活性物质：N-(羟甲基)丙烯酰胺（N-(hydroxymethyl)acrylamide，N- MAM）、六氢-4-甲基邻苯二甲酸酐（Hexahydro-4-methylphthalic anhydride，MHHPA）、1-溴丙烷（1-bromopropane(n-propyl)bromide，1-BP）、三聚氰胺（Melamine）、2,5-二氯酚（2,5-dichlorophenol，2,5-DCP）、1,4-二氯苯（1,4-dichlorobenzene，1,4-DCB）。

图5 6种预测的活性化学物质（A）或6种预测的非活性化学物质（C）对3T3-L1细胞中的成脂分化实验结果。6种预测活性化学品（B）或6种预测非活性化学品（D）在其最大有效浓度下的油红O吸光度。不同字母表示组间差异显著（p<0.05）。

3T3-L1前脂肪细胞成脂分化实验表明（图5），p262-NP、OP1EO、UV-320和硫丹暴露组的细胞脂质积累程度显著高于对照组。DiPeP与p363-NP暴露组的细胞脂质积累程度与对照组无显著差异。UV-320、p262-NP、OP1EO和硫丹表现出促进前脂肪细胞脂肪生成的效应。MHHPA、N-MAM、1-BP、Melamine、2,5-DCP和1,4-DCB暴露组的成脂分化的细胞脂质积累程度与对照组无显著差异，说明这6种物质不能促进前脂肪细胞的脂肪生成。该模型正确预测了12种物质中的10种，预测准确率达83％，表明该模型具有良好的致肥胖物质预测性能。本研究鉴定了UV-320、p262-NP、OP1EO和硫丹等四种新型致肥胖物质。

本研究构建了致肥胖物质预测模型，可以帮助确定化合物对肥胖发生的潜在风险，以便在开发的早期阶段进行进一步的测试。这将最终减少动物试验，并提高替代开发和监管试验的效率。

作者介绍

吴思颖，浙江大学环境与资源学院2021级硕士生。

刘璟，博士，浙江大学大学环境与资源学院教授，博士生导师。研究方向为新污染物尤其是环境内分泌干扰物的暴露特征、健康效应与毒性机制。已在Environmental Science & Technology、Toxicological Sciences、Endocrinology等环境科学、毒理学、内分泌学领域的主流学术期刊发表论文80余篇。相关研究成果被美国内分泌学会官方网站作为突破性成果报道，并被Science Daily等国际著名科技媒体广泛报道。获得美国生殖学协会Lalor基金奖和优秀研究奖、浙江省杰出青年科学基金。主持国家重点研发计划项目/课题、国家自然科学基金、浙江省自然科学基金重点项目等多个国家级和省部级项目。现任中国毒理学会分析毒理专业委员会委员、浙江省微量元素与健康研究会常务理事、浙江省新污染物治理专家委员会委员、浙江省毒理学会纳米毒理学专业委员会委员、《生态毒理学报》编委、Toxics编委等。

通讯邮箱：jliue@zju.edu.cn

投稿、转载、合作、申请入群可在后台留言（备注：姓名+微信号）或发邮件至sthjkx1@163.com

【点击下方超链接阅读16个栏目推文】

1.【直播】	9.【院士】
2.【视频】	10.【综述】
3.【健康&毒理】	11.【写作】
4.【水】	12.【Nature】
5.【气】	13.【Science】
6.【土】	14.【WR】
7.【固废】	15.【EST】
8.【生态】	16.【JHM】