文字摘要
污水污泥是城市抗生素耐药基因的主要储存器和排放源。鉴定污水污泥中的抗菌素耐药性 (AMR) 宿主细菌对于了解 AMR 的形成和降低生物和生态风险至关重要。本文分析了来自江苏省污水处理厂的 24 个污泥数据和来自基因数据库的 1559 个污泥数据,以探讨 7 种 AMR 与细菌分布之间的关系。Procrustes 和 Spearman 相关性分析的结果不令人满意,p值超过了阈值 0.05,并且没有强相关性(r > 0.8)。相反,使用 SHapley 加法解释 (SHAP) 的可解释机器学习 (EML) 显示假单胞菌是污泥 AMR 的主要贡献者(39.3%–74.2%)。总体而言,机器学习在分析 AMR-细菌关系方面的应用前景广阔。鉴于各种分析方法的适用场合和优势不同,强烈建议使用ML作为相关性分析工具之一。
图片摘要
Highlights
• 对全球 1583 种污泥进行多方法分析,研究 AMR-微生物组相关性。
• ML可以从多个细菌属的角度揭示相关性。
• 假单胞菌是编码污泥AMR的关键生物群,贡献率高达74.2%。
• 使用来自中国 23 个污水处理厂的实验数据验证的模型。
Keywords:
Antibiotic resistance genes; Wastewater sludge; Explainable machine learning; Microbial community; Metagenomics
人类诱导的抗生素耐药菌(ARB)和抗生素耐药基因(ARG)因其有害的生态毒理学效应和生物累积风险而成为全球重大公共卫生问题。据预测,到2050年,抗生素耐药性(AMR)将夺走1000万人的生命,并给社会带来巨大的经济负担。作为城市污水净化介质,污水处理厂(WWTPs)中的污水污泥(WS)被广泛认为是ARGs的主要储存库和排放源。该研究从开放数据库中获取了污水处理厂污泥相关的宏基因组数据,对7种关键抗生素(SUL:磺胺类药物、DAA:消毒剂和防腐剂、MAC:大环内酯类、AMG:氨基糖苷类、TET:四环素类、LIN:林可酰胺类、PHE:苯妥英类)及其相关的耐药基因进行了注释和整合。采用4种ML算法建立了细菌群落与抗菌药物耐药性的相关模型。江苏省23个污水处理厂的实验数据有效验证了ML相关模型的可靠性。该研究的目的是:(1)研究污水处理厂细菌群落和耐药基因的组成;(2)通过ML模型探索抗菌药物耐药性和细菌群落之间的潜在关系并检验其实际可靠性;(3)利用可解释机器学习(EML)评估细菌群落对抗菌药物耐药性的贡献。该研究将建立一个ML模型框架,揭示废水处理过程中AMR与细菌群落之间的隐藏关系,为阐明AMR的来源并减轻其传播提供一些新的见解和有希望的可行策略。
24 个 AS 样品(混合液)来自中国江苏省的 13 个城市。污水处理厂数据的地理分布如图 1所示。在 Illumina HiSeq平台上对总 DNA 进行测序,以生成 150 bp 的双端读取。原始宏基因组序列和样本简介可在NCBI网站的生物项目 PRJNA1097802 下找到。
图1.开放数据库数据和污水处理厂实验数据的地理分布
开放数据库中污泥数据的收集
截至 2023 年 12 月,使用关键词“(wastewater OR sewage OR sludge OR biofilm) AND metagenomics”。在 Web of Science 上进行搜索。共获得 872 个来自 WWTP 的宏基因组数据和 687 个来自实验室规模 WTS 的宏基因组数据。这些宏基因组数据涵盖了废水处理介质的所有“污泥”样本,包括但不限于 AS、混合污泥、生物膜、生物质等。数据集是从公共数据库下载的,包括:NCBI、NGDC和EMBL-EBI 。
生物信息学分析
从综合抗生素耐药性数据库 (CARD, v3.2.7) ( Alcock et al., 2022 )下载了一个广为接受的 ARG 数据库。CARD 数据库包含 ARG 分类和每种 ARG 所属的抗生素组 (例如大环内酯类、β-内酰胺酶或氨基糖苷类) 的信息。根据下载的数据库,使用抗性基因标识符 bwt (RGI bwt, v6.0.2) 对修剪后的读数进行 ARG 注释。如果某个序列与 CARD 数据库中的序列具有 90% 以上的同一性,并且比对长度超过 25 个氨基酸,则将该序列注释为 ARG 片段 ( Li et al., 2015 )。ARG 的丰度以“ppm”为单位报告。选取出现频率最高的 7 类 AMR(SUL、DAA、MAC、AMG、TET、LIN 和 PHE)进行后续分析和 ML 关联模型开发。ML相关模型的开发
将数据分为两种场景进行模型开发和分析:(1)污水处理厂和实验室数据的组合;(2)一组污水处理厂数据。为保证模型质量,首先基于 3σ 原则对每组 ARM 相对丰度进行异常值剔除。然后,将数据库中的数据按 4:1 的比例分为训练集和测试集,并使用该研究中的所有实验数据(中国江苏省 23 个污水处理厂的污泥数据)作为验证集,以验证模型的实际意义。采用四种常见的机器学习算法(CatBoost:分类增强、XGB:极限梯度增强、GBDT:梯度增强决策树、LGBM:轻梯度增强机)建立细菌群落与AMR关系的机器学习相关模型。AMR的丰度作为机器学习相关模型的因变量,样品中细菌属的百分比作为自变量。模型开发包括超参数搜索和十倍交叉验证。采用R2、Q2、RMSE和MAE评估模型的拟合质量、稳健性和泛化能力。在ML相关性分析过程中,采用了基于SHAP的可解释方法来分析细菌属对AMR的准确正向或负向贡献,这对于解释细菌属在WS中的作用具有重要的环境意义。该研究从江苏省23个污水处理厂获取了24个AS样品。所有样品表现出良好的属丰富度和属均匀度,平均Shannon指数达到5.96,平均Simpson指数达到0.992,平均Pielou指数达到0.810。在1562个注释属中,仅3个平均相对丰度超过2%,包括*Nitrospira*(2.9%),*Candidatus Promineofilum*(2.5%)和*Bradyrhizobium (2.1%)。样品中丰度相对较高的属如图2 所示。7种ARGs注释与整合结果(图2 (b))表明,所有AS样品中ARGs的平均相对丰度为94.52 ppm。
图 2 .实验 AS 样品中 (a) 高丰度细菌群落 (属水平,%)、(b) AMR (ppm) 的分布。ARGs (或 AMR,ppm) 与细菌群落 (属水平,%) 之间的相关性分析,包括 (c) ARGs 与细菌群落、(d) AMR 与细菌群落之间基于 Bray-Curtis 距离的 Procrustes 分析,以及 (e) AMR 与细菌群落之间的共生网络分析 ( *p* < 0.05)。
污水处理厂厌氧消化系统耐药基因(或抗菌药物耐药性)与细菌群落的相关性分析基于Bray-Curtis距离的Procrustes分析表明,AS中检测到的ARGs的分布特征与细菌组成显著相关(M2 = 0.828,*p* = 0.030,图2(c)),这与以前的研究结果一致(Shi et al,2021,Zhang et al,2021)。但通过Procrustes分析获得的AMR与细菌群落之间的相关性并不显著(M2 = 0.886,*p* = 0.066,图2(d))。就该研究的数据而言,Procrustes分析方法在整合ARGs后分析AMR与细菌群落之间的关系存在一定的局限性。另外,在ARGs的分析中,靶基因是相互独立的,但该研究重点关注AMR,单靶点ARGs可能对应多种类型的AMR。因此,ARGs整合过程中的重复计数可能大大增加AMR与细菌群落内在关系的复杂性,降低了Procrustes分析的可行性。
大数据集条件下WSs中细菌群落与AMR的相关性分析数据库中污水处理厂污泥样品的3个α多样性指数(Shannon指数5.68、Simpson指数0.982、Pielou指数0.775)与该研究中的实验数据相比分别降低了4.7%、1.0%和4.3%(图3(a、c))。虽然数据来源不同,但可以观察到污水处理厂污泥样品的属的丰富度和均匀度明显优于实验室数据(Shannon指数4.91、Simpson指数0.915、Pielou指数0.669)。毫无疑问,实验室污泥样品产生的属的丰富度和均匀度受到不同化学条件和反应参数引起的某些细菌类群的富集或灭绝的负面影响。同样,基于Bray-Curtis距离的PCoA分析也证明了这一点(图3(d))。
图3.基于不同数据集的α多样性指数(Exp:本实验中的24个污泥数据,WWTPs:来自数据库的污水处理厂污泥数据,Lab:来自数据库的实验室污泥数据):(a)Shannon指数,(b)Simpson指数,(c)Pielou指数。(d)基于Bray-Curtis距离的不同来源污泥中微生物群落的主坐标分析(PCoA)图。(e)基于不同数量下的Spearman相关系数的AMR与细菌属之间的相关性数量和平均值。
基于ML的相关性分析结果显示,AMR与细菌群落呈现出良好的相关性。在14组ML分析模型(7个AMR×2数据集)中,共鉴定出103个细菌属与AMR相关,其中只有21个细菌属在2个数据集之间是相同的。虽然所有ML模型在相关性分析中都表现出优异的性能,但与AMR相关的细菌属在不同数据量之间差异很大。此外,4种ML算法对WWTPs+Lab数据集的结果与WWTPs数据集的结果相比,并无显著差异。
图 4.基于ML 的相关性分析模型的适应度和分析能力。WWTPs:来自全尺寸污水处理厂的污泥数据。WWTPs + 实验室:来自全尺寸污水处理厂和实验室的污泥数据。
从可解释机器学习的角度看细菌属对AMR的贡献
在污水处理厂+Lab 数据集的ML相关性分析模型中,共鉴定出66个细菌属与AMR相关,其中仅17个属出现了两次或两次以上。每种AMR最佳性能模型的SHAP结果表明(图5),这17个细菌属对6种类型AMR(LIN-AMR除外)的解释率达到58.2%~83.6%。在17个细菌属中,*Stenotrophomonas* (4.6%~20.6%,平均12.0%)和*Thauera* (6.1%~14.6%,平均10.0%)是构成污泥AMR的两个最重要的细菌属,它们的正贡献均超过10%。
图5 . (a) AMR与细菌属关系的桑基图。第一列为6种AMR(除LIN-AMR外),第二列为出现两次以上的细菌属,第三列为细菌属所属的门,第四列为细菌群落的正或负贡献。(b) LIN-AMR与细菌属之间最佳性能ML相关模型的SHAP值汇总。(c)基于SHAP值的细菌属的贡献率(%)及其正或负相关性( r )。
点击“原文链接”,查看论文
往期推荐
声明:本公众号分享的前沿学术成果来源于各学术网站,不依法享有其所有权。若原作者发现本次分享中的文字及图片涉及侵权,请立刻联系公众号后台或发送邮件,我们将及时修改或删除!