Py学习  »  机器学习算法

ES&T | 南开大学孙红文、姚义鸣课题组发表副封面文章:基于机器学习模型的人体暴露组学方法强化与预测

土壤与环境健康SEH • 5 月前 • 324 次点击  

图片


图片
图文摘要

图片

图片

图片
成果简介

近日,南开大学孙红文、姚义鸣课题组在Environmental Science & Technology上发表了题为“An Enhanced Protocol to Expand Human Exposome and Machine Learning-Based Prediction for Methodology Application”的研究论文(DOI: 10.1021/acs.est.4c09522)。该研究针对人体血清和尿液样本中暴露组分析的复杂性,开发了一种基于复合固相萃取柱multi-SPE)与高分辨质谱的暴露组分析的优化方案:实现了对全/多氟烷基化合物(PFASs)、有机磷酸酯(OPEs)、邻苯二甲酸酯类塑化剂(PAEs)、季铵化合物、合成酚类抗氧化剂、胺类抗氧化剂、羟基化多环芳烃、挥发性物质的代谢产物(mVOCs)、非邻苯二甲酸的塑化剂、农药(PEs)、紫外吸收剂、人工甜味剂(ASs)、个人护理品(PCPs)、双酚类和光引发剂等15 类化合物的同步定量分析;发展了非靶向筛查的技术框架;构建了机器学习模型用于辅助筛选最优方案
图片
全文速览
人体暴露于多种已知或疑似具有内分泌干扰特性的化学物质(EDCs),这些物质种类繁多、理化性质各异、浓度极低,且缺乏标准品,给暴露组学带来了重大分析挑战。本研究提出了基于multi-SPE的优化方案,并训练机器学习模型用于方法预测。针对295种常见EDCsmulti-SPE方案在血清和尿液中分别比传统的单独使用亲水-亲脂两性平衡吸附剂(HLB)方法额外提高7025%)和3412%)种EDCs识别。对498名育龄女性中筛选的20例可能有高暴露潜力的样本分析显示:multi-SPE方案分别提高了血清和尿液中1040%)和1653%)种靶向EDCs的监测和1777%)和7036%)种非靶向EDCs(置信度≥3级)的识别。进一步建立机器学习预测模型并应用于ToxCast数据库中的6898种化合物,结合现有文献对其人体内暴露浓度和毒性的预测结果,发现该方案可强化38%的高风险化合物在人体暴露组中的检出和识别。研究证实了multi-SPE方案可扩展人体暴露组的监测与识别,为精细刻画人体的环境暴露特征提供有力工具。
图片
引言
当前人体暴露组的研究仍存在分析挑战。传统靶向分析虽能有效量化已知EDCs,但人体暴露于成千上万的化学物质,逐一分析耗时且受标准品制约,限制了暴露组学在生物监测中的应用,破坏了EDCs暴露评估的完整性。非靶向分析不仅可以测量已知EDCs,还能通过质谱信号筛查潜在的未知物质或代谢产物。然而,内源性物质的干扰使得EDCs及其代谢物的检测更加复杂。现有研究表明,SPE被视为从生物样品中提取目标EDCs的最佳选择,特别是HLBEDCs 检测带来极大的优势,包括低基质效应和低浓度。但对于血清和尿液中的极性小分子EDCsHLB仍存在一定局限。因此,本研究利用高分辨质谱并结合靶向和非靶向分析,建立了一种用于拓展人体暴露组以及基于机器学习进行方法预测的优化方案。
图片
图文导读

建立multi-SPE方案

为拓展人体暴露组的监测与识别,研究基于高分辨质谱,结合HLB、弱阴离子交换(PWAX)、弱阳离子交换(WCX)填料开发了multi-SPE优化方案。通过验证295种常见EDCs,发现该方案对血清和尿液中的大多数EDCs具有良好的回收率和稳定性,较低的基质效应(图1)。与单独使用HLB295EDCs的提取效果比较中发现,multi-SPE方案分别提高了血清和尿液中25.2%11.9%EDCs识别(图2)。

图片

Figure 1. (A) Sample-processing steps for analysis with UHPLC-Orbitrap–HRMS. (B) Total ion area of method blank of HLB/multi-SPE calculated by the sum of area of all detected peaks. (C) Matrix effects, (D) coefficients of variation, and (E) recovery of the 278/286 target EDCs covering 15 classes in serum and urine.

图片

Figure 2. Comparison of peak areas for target EDCs (278 in serum and 286 in urine) between multi-SPE and HLB methods in serum (A) and urine (B).

针对实际样品中的靶向多EDCs监测,multi-SPE方案的优势

498位育龄女性人群中,研究根据日常生活行为及职业暴露情况,选取了20对可能有高暴露风险的女性血清和尿液样本,分别用multi-SPEHLB提取,并选择将上述已提到的15295EDCs作为监测对象。结果发现(图3):血清样品中检出625EDCs,和HLB方法相比,multi-SPE方案提高了其中1040%)个EDCs的监测,包括5PFASs3mPAEs1PEs1ASs;尿液中检出530EDCs,和HLB方法相比,multi-SPE方案提高了其中1653%)个EDCs的监测,包括2OPEs10mPAEs3mVOCs 1PCPs。

图片

Figure 3.  Performance of multi-SPE for target EDC analysis in 20 paired serum (A) and urine (B) samples. DF of EDCs using the multi-SPE method was visualized through log-transformed peak areas (1). The ratio of peak areas extracted using the multi-SPE method compared to HLB alone (Log2FC) was shown (2), along with the difference in DF between multi-SPE and HLB extraction methods for each EDC (ΔDF) (3).

针对实际样品中的非靶向EDCs识别,multi-SPE方案的优势

在血清和尿液样本中,监测的靶向EDCs仅是冰山一角。为实现更全面的监测,研究采用DDA模型进行质谱数据采集,以捕获所有非靶向特征。结果显示,相较于HLB方法,multi-SPE方案具有显著优势。在血清和尿液的EST+/ESI-分析中,去除背景后,multi-SPE方案额外识别了1721351370857个特征峰(图4A)。进一步分析这些额外特征与常见指示物的相关性(图4B),发现血清样本中9430.6%)个额外特征与多种指示物具有132个正相关,尿液样本中124255.8%)个额外特征与多种指示物有1908个正相关(p ≤ 0.05),提示这些额外特征可能是EDCs或其代谢物。定性鉴定进一步确认了216个物质(置信度≥3级),其中22个来自血清,194个来自尿液。在这些物质中,12个在HLB方法中未能识别,75个在multi-SPE方案下具有更大的峰面积或更高的检出率。

图片

Figure 4.  Nontarget features comparison between multi-SPE and HLB methods. (A) Scatter plots of all non-targeted features in ESIand ESI− detected in serum and urine samples. (B) The number of additional features positively correlated with biomarkers.

基于机器学习进行multi-SPE方案预测

通过整合靶向和非靶向分析结果(519个化合物),利用分子描述符构建机器学习模型预测EDCs的分析方法(图5)。其中,基于递归特征消除的随机森林模型(RF)展现出最优预测性能。通过SHAP算法解析发现,multi-SPE方案可额外富集一些极性、小分子化合物。应用该模型预测CECscreen数据库中的33,457个化学物质和300,372个预测代谢物,结果显示multi-SPE方案可能额外提高30%的化合物及25%的代谢物的识别。针对6,981个已有毒性数据的化学物质,预测发现237434%)种化合物可能需要借助multi-SPE方案,尤其强化了38%高风险化合物的识别,比如可能具有强雄激素拮抗毒性的1-乙烯基-2-吡咯烷酮(家具工业添加剂),仅能通过multi-SPE有效提取,单独使用HLB无法富集。

图片

Figure 5. (A) Process of model building. (B) SHAP dependence plot of the top 10 features of the RF model. (C) The distribution of the chemical space for the method prediction. The left side represented the probability of successfully predicting multi-SPE incorporation for 33,457 chemicals when the corresponding MDs were less than the third quartile. The right side represented the distribution of MolLogP, MolWt, VSA_Estate7, PEOE_VSA9, BCUT2D-LOGPHI, SlogP_VSA12, and BertzCT for 33,457 chemicals. (D) The total toxicity contributions (percentage) of 6891 ToxCast chemicals were assessed using multi-SPE and HLB methods across seven assays.

图片
小结

本研究开发了一种基于多SPE吸附剂(HLB/PWAX/WCX)的优化方案,通过结合高分辨质谱和机器学习模型,实现了多EDCs的同步筛查与识别。相比于传统单一HLB方法,该方案显著强化了极性EDCs及代谢产物的检测,尤其增强了一些潜在毒性化合物的识别,同时机器学习模型和暴露组学的融合优化了前处理方法的筛选流程。此外,本研究尽管集中于血清和尿液样本,但该方案有望拓展至其他生物基质(如母乳、脑脊液和卵泡液等),为全面刻画人体暴露组提供方法学基础。总之,该方案通过高通量的污染物筛查能力,为大规模人群队列的暴露组学研究提供分析工具,进而为环境污染防控与人群健康维护提供技术支撑。

图片
作者介绍

图片

孙红文教授,教育部长江学者特聘教授、国家杰出青年基金获得者、万人计划科技领军、百千万人才工程国家级人选、享受国务院政府津贴专家。现任南开大学环境科学与工程学院教授、南开大学科学技术研究部部长。主要研究方向为痕量新有机污染物的区域污染特征与环境界面化学、人体暴露与健康风险、受污染环境修复材料与技术。主持国家重点研发计划项目(2项)、973计划课题、863前沿探索、国家基金重点等各类科研项目50余项,发表论文600余篇,其中SCI收录论文400余篇,SCI论文总被引用上万次;连续多年入选Elsevier中国高被引学者;获得发明专利授权24项;编写专著及教材10余部。以第一完成人获省部级一等奖2次、二等奖1次,参与获得省部级二等奖4次。担任中国环境科学学会新污染物治理专业委员会副主任、中国地理学会环境地理专业委员会副主任、中国土壤学会常务理事等学术职务,担任领域顶级期刊ES&T顾问编委以及其它中外期刊编委

图片

姚义鸣 教授,教育部青年长江学者,南开大学百名青年学科带头人,现任职于南开大学环境科学与工程学院。主要从事新污染物的环境行为与人体健康效应研究,是中国环境科学学会新污染物治理专业委员会委员,科技部人才推进计划重点领域创新团队(2017)和天津市“131”创新人才团队(2016)成员。针对包括全/多氟化合物和磷系阻燃剂在内的新型有机污染物人群暴露特征与健康风险识别开展深入研究,在基于质谱的非靶向研究方法和新物质的识别方面取得了丰富的工作经验和创新性技术成果。主持国家自然科学基金面上项目1项,青年项目1项,国家重点研发计划课题1项、天津市基金青年项目1项,作为学术骨干承担国家基金重点项目1项、国家重点研发计划子课题2项、国际(地区)合作与交流项目等项目10余项,共发表英文文章108篇,其中以第一作者或通讯作者发表在Environmental Science & TechnologyWater ResearchNature Index期刊的SCI论文38篇,总他引数3793h因子38;获发明专利授权2项;参编著作3部,获得2022年度广东省自然科学二等奖(4/10
图片
贺阿娜南开大学环境科学与工程学院,博士研究生。研究方向为化学品暴露与人体健康,主要集中在暴露组学色谱质谱方法开发,利用高分辨质谱非靶向分析技术识别新物质,同时初步探索机器学习在暴露组学分析中的应用。于第十四届SETAC亚太国际会议(2024)作口头报告,以第一作者/合作作者在Environmental Science & TechnologyEnvironment International等期刊上发表学术论文5篇。
备注:
Permissions for reuse of all Figures have been obtained from the original publisher. Copyright 2025, American Chemical Society
参考文献:

He, A.; Yao, Y.; Chen, S.; Li, Y.; Xiao, N.; Chen, H.; Zhao, H.; Wang, Y.; Cheng, Z.; Zhu, H.; Xu, J.; Luo, H.; Sun, H., An Enhanced Protocol to Expand Human Exposome and Machine Learning-Based Prediction for Methodology Application. Environ. Sci. Technol. 2025

文章链接

https://pubs.acs.org/doi/10.1021/acs.est.4c09522

来源:Environmental Advances

期刊介绍

Soil & Environmental Health是由朱利中院士、朱永官院士和马奇英教授担任主编、浙江大学与Elsevier合作出版的全英文开放获取国际学术期刊。自2022年12月以来,期刊出版了来自19个国家的70篇优秀文章;期刊CiteScoreTracker 2024 为6.1,目前已被DOAJ、Scopus和CAS数据库收录。

图片



微信号 | SEH2023

Twitter|@soileh2023

更多讯息 欢迎关注

图片
年度 Top5 热点文章推荐(2024年)

SEH研究论文 | 水稻土可交换态Cd含量跨气候带空间分布的自然地理环境驱动因子

2024-03-14

图片

SEH研究论文 | 中科院生态环境研究中心王美娥和谢天团队:城市地块尺度蚯蚓多样性与群落组成及其影响因素

2024-03-18

图片

SEH研究论文 | 芦苇床污泥处理中细菌群落组成和多样性的变化

2024-05-08

图片

SEH研究论文│生活污水微生物组与社区肥胖率的潜在关系研究

2024-04-22

图片

SEH研究论文│热带人造湿地中天然湿地植物对金属和养分的吸收

2024-04-19

图片
图片年度 Top5 热点文章推荐(2023年)

SEH研究论文 |加拿大阿尔伯塔大学Chang团队:生物炭晶种特性对可施用于土壤的鸟粪石结晶形成的影响

2023-04-16

图片

SEH研究论文 | 可溶性养分在生物炭处理的坡地土壤中的保留和损失途径研究——降雨模拟试验

2023-06-18

图片

SEH研究论文 | 天然富硫生物炭施用下水稻根际溶解性有机质对汞形态的影响研究

2023-06-20

图片

SEH研究论文 | 意大利博洛尼亚大学:生物炭和生物刺激剂处理下番茄栽培土的碳氮形态分析

2023-12-01

图片

SEH综述 | 生物炭:一种改善盐渍土壤健康的可持续性负碳工具

2023-07-31

图片



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179367
 
324 次点击