近日,同济大学土木工程学院王喜华研究员在环境领域著名学术期刊Science of Total Environment上发表了题为“Multi-machine learning methods to predict
spatial variation characteristics of total nitrogen at watershed scale:
Evidences from the largest watershed (Yangtze River Watershed), Asian”的论文。文中利用530组监测断面的数据,以亚洲第一大流域——长江流域为研究对象,计算土地利用综合指数并进行统计分析,探讨影响长江流域氮素富集的主要因素;并开发了三个机器学习模型来预测监测点未来的TN浓度,利用机器学习算法首次揭示大尺度流域总氮的空间演化趋势及内在驱动机制。
氮污染加剧了河流、湖泊、河口和沿海地区的富营养化。氮污染物的排放可能导致有毒和营养性氮的过剩,引发土壤和水环境中的广泛级联效应。过量的氮含量可改变土壤特性,增加铵的积累,破坏植被结构,并导致各种陆地生态系统中的生物多样性净损失,并对人类健康和经济造成威胁。因此,氮的研究成为了重点,尤其是总氮的研究。当前研究主要集中在氮的特征分析、迁移转化及预测方面,尤其是机器学习模型在氮污染预测中的应用。传统的物理模型在复杂性和理解要求上进展缓慢,而大数据驱动的机器学习模型,如随机森林、支持向量机和神经网络,因其简便性和高效性,已成为氮污染预测的重要方法。尽管已有部分研究在实验室和区域尺度上取得了成果,但针对流域尺度的研究仍较少,流域尺度对于氮污染控制至关重要。本研究深入探讨了长江流域表面水体的化学组成特征,主要从水化学性质的时空变化、氮元素的分布特征、以及不同水质指标之间的相关性等多个维度进行了分析。研究结果揭示了长江流域水体化学特征的复杂性,受到自然因素与人为活动交织影响,具有显著的空间和时间差异。通过对流域内不同地区的水质监测数据进行分析,研究不仅展示了长江流域表面水体化学成分的区域分布特点,为改善长江流域的水质管理提供了科学依据。
图文导读
时空分析
![](http://mmbiz.qpic.cn/sz_mmbiz_png/pjcOVAUV0pFiaFlqCUBHGeol89lOyLrw8UdjATpkeMsYyaBPE5CLVj6Za6sLcz3YnFU20akfcnljtqZ0OrwwlVA/640?wx_fmt=png&from=appmsg)
图3:长江流域水质监测指标的范围
![](http://mmbiz.qpic.cn/sz_mmbiz_png/pjcOVAUV0pFiaFlqCUBHGeol89lOyLrw8RcC9piaJaJdHkPKldNiaUCJMdwC5EmZn3xiauM7r4FxZp2jmkfS2axwcQ/640?wx_fmt=png&from=appmsg)
图4:长江流域总氮浓度的时空变化
首先,从空间变化的角度来看,长江流域的表面水体在上游、中游和下游地区的水化学性质差异明显。在上游地区,水体的pH值在7.00至9.00之间,中位数为8.00,表明该地区水质偏弱碱性。而中游和下游地区的pH值变化较小,均表现为接近中性或弱碱性,且溶解氧浓度从上游到下游呈逐渐下降的趋势(图3)。此外,氨氮和总磷浓度的空间分布也显示出一定的差异,上游的氨氮浓度较低,而下游的氨氮浓度相对较高(图4),反映出下游可能受到更多人为活动的影响,如农业、工业及城市污水排放。在时间变化方面,研究发现长江流域表面水体的化学成分在季节和年份之间呈现出不同的波动趋势。总氮浓度在不同区域的季节性变化较为显著,尤其是上游地区的总氮浓度在每年7月出现峰值,但整体呈现波动性而没有明显的季节性规律(图5)。与此不同,氨氮和总磷浓度的变化则表现出较为明显的季节性特征,尤其是总磷浓度,在每年7月达到高峰后逐渐下降。此外,溶解氧浓度呈现出与氮、磷浓度相反的趋势,从1月到7月逐渐减少,再从7月到次年1月逐渐恢复(图5)。这种变化趋势可能与温度变化、流域内水体的营养物质浓度以及水体的自净能力有关
。
![](http://mmbiz.qpic.cn/sz_mmbiz_png/pjcOVAUV0pFiaFlqCUBHGeol89lOyLrw8AOYialkTOslfK0Sd3iaB29VwHcMktEibYzO7zQt5dnGfmkUu77HNIc9Dw/640?wx_fmt=png&from=appmsg)
图5 不同水质监测指标的时间趋势
相关性分析
![](http://mmbiz.qpic.cn/sz_mmbiz_png/pjcOVAUV0pFiaFlqCUBHGeol89lOyLrw82E9ZLW6VKJ4GPkhjeRmcpDXDFqYGYW0Fq5ibia9V49fVq6PIVryZOXsw/640?wx_fmt=png&from=appmsg)
图6 聚类指标的相关性热图
在水质指标之间的相关性分析中,研究发现表面水体的多个水质指标之间存在显著的相关性,尤其是溶解氧、氨氮、总磷与总氮之间的负相关关系(图6)。溶解氧浓度与氨氮、总磷以及总氮之间的负相关表明随着氮、磷浓度的增加,水体中的溶解氧浓度趋于下降,这可能与水体的富营养化和有机物的降解过程有关。特别是氨氮和总磷之间的强正相关,进一步证实了水体富营养化是影响长江流域水质的重要因素。同时,海拔和土地利用等因素也对水质产生了一定的影响,尤其是在流域的上游和中游地区,土地利用方式和海拔差异对氮、磷浓度具有一定的调节作用。通过聚类分析,研究发现长江流域内的水质监测点可以根据水化学特征、海拔和土地利用等因素进行有效的聚类。这一方法为识别不同区域水质的潜在相似性提供了有力的支持,并帮助揭示了水质变化的规律。聚类结果表明,不同区域的水质特征在一定程度上反映了水质污染的来源和影响因素,为水质监测和管理提供了参考依据。
聚类分析
![](http://mmbiz.qpic.cn/sz_mmbiz_png/pjcOVAUV0pFiaFlqCUBHGeol89lOyLrw8JgAlcgSuykW8AgEyicrMKCu2FkJ8vSsbP9jVcCuVBqaGicHqKyv2gNVA/640?wx_fmt=png&from=appmsg)
图7 水质指标的聚类结果;图8 主成分关系图(基于聚类分析结果)
根据水质指标进行聚类分析后的结果,可能显示了不同水质监测区域或样本之间的相似性。聚类结果通常通过不同颜色或区域划分,表示具有相似水质特征的监测点或区域。通过这种方式,可以识别出在水质特征上有相似性的区域,帮助分析水质变化的空间分布特征。聚类分析有助于揭示水质问题的潜在规律,A1类水样均匀分布在PC1和PC2轴上,表明A1类水样的水文地球化学特征受PC1(代表表层水中微生物介导的有机物消耗与氮释放过程)和PC2(代表氮氧化物溶解过程)的双重影响。相比之下,A2类水样集中在PC1和PC2的正半轴区域,表明氮氧化物溶解过程和微生物介导的有机物消耗与氮释放过程的综合影响更为严重。A2类水样主要分布在巢湖、丹江支流和二滩水电站附近。水库和水电站的河流积累了有机物,这些有机物在厌氧条件下分解,生成氨氮等物质。水库和水电站的运行扰动了水体,导致沉积物中的氮磷化合物释放,从而增加水中的总氮和总磷浓度。
流域总氮浓度的空间预测
![](http://mmbiz.qpic.cn/sz_mmbiz_png/pjcOVAUV0pFiaFlqCUBHGeol89lOyLrw8qJ1Sj6SSicne7h9lZSYKddZn0WvGTrvxo6ABllcY6oTUDFmBTcRMJfA/640?wx_fmt=png&from=appmsg)
图9 多种机器学习模型的预测结果
为进一步验证聚类结果的因果分析,利用机器学习模型评估了长江流域不同区域地表水中氮的主要来源。在长江流域上游地区,pH被认为是影响总氮浓度的最重要特征变量,表明地表水中的氮富集主要受周围工业区氮氧化物沉积物溶解的影响。在中游和下游地区,氨氮和总磷对氮富集的影响更为显著,微生物介导的有机物分解是主要的控制过程,影响了总氮的积累和矿化。在丹江支流和二滩水电站附近,氮富集的风险较高,表明附近的大型水利工程设施的建设可能改变了水文过程。长江流域中游巢湖附近的总氮浓度可能与上游和中游流域的表面径流所携带的氮积累有关。预测模型识别的高风险区域通常与地表水中总氮浓度升高的推测模式一致。模型预测的氮富集区域空间范围比实际总氮分布更广,且大体与观测数据分布一致(图9)。这表明模型选择和变量选择是合适的,预测相对准确。然而,一些高风险地区,尤其是长江口附近,未被考虑到。这一差异可能源于解释变量的有限性和数据可用性的限制,表明基于有限变量集的预测模型可能无法完全捕捉一个区域内总氮浓度的变化,导致局部差异。