北京理工大学曲申团队WR｜基于时间序列机器学习的饮用水厂多药剂投加对多水质变量的预测

文章信息

第一作者：庞宏娇

通讯作者：曲申教授

通讯单位：北京理工大学

https://doi.org/10.1016/j.watres.2024.122777

亮点

• 开发了预测多元水质变量的时间序列模型。

• 证实了模型采用12小时滞后步长有助于缓解药剂投加的时间依赖效应。

• 证实了传统机器学习模型结合时间特征工程优于深度学习模型。

• 利用SHAP方法阐明了机器学习预测结果与水处理的基本原理一致。

研究进展

饮用水处理过程中，原水水质受季节变化、环境条件等多种复杂因素影响，呈现出随机性和波动性。此外，药剂投加存在时间滞后效应和非线性反应，为水质稳定控制带来挑战，仅凭传统人工经验难以应对复杂的工艺环境，最终影响水厂经济效益和资源利用效率。为解决这一难题，机器学习技术应运而生。通过分析进水水质特征、药剂投加量及多屏障水处理工艺中的水质变化，机器学习模型能够精准预测出水水质，实现智能控制（图1）。特别是时间序列机器学习模型，不仅能够捕捉水质动态变化趋势，还能优化药剂投加，提高水处理效率，为现代水厂智能化管理提供全新解决方案。

图1 图文摘要

本研究旨在构建时间序列预测模型，用于动态预测饮用水处理过程中的多变量水质特征。研究选取了三种传统机器学习模型（LightGBM，XGBoost和CatBoost）和四种深度学习模型（TFT，D-Linear，N-Linear和TiDE）进行对比分析。如图2所示，所有模型均采用多变量预测模式，将历史目标值（出水水质特征）和协变量（原水水质和试剂投加量）作为输入，预测未来目标值。其中，目标变量代表出水水质特征，协变量则包含历史和未来的相关水质变量及药剂投加量信息，用于提升模型预测精度。本研究共涵盖10个原水特征、6种试剂投加量和4个出水特征（pH、浊度、高锰酸盐指数和余氯）。为优化模型性能，研究利用Optuna对每个模型进行超参数调优，以选择最佳拟合模型并提高其泛化能力和预测准确性。此外，研究还设置了6小时、9小时和12小时的滞后步长，系统评估了模型在不同时间滞后效应下的预测表现，以探究时间因素对预测结果的影响。

图2 多水质变量时间序列预测模型框架图

为了全面评估模型的性能，本研究采用了多个评价指标，包括平均绝对百分比误差（MAPE）、平均绝对误差（MAE）、均方误差（MSE）和决定系数（R2）。这些指标是常用的回归模型评估指标，能够反映模型的预测准确性。为了确保公平比较，我们采用朴素均值基线模型作为参考基准，评估各个模型的相对性能。从图3可以看出，传统机器学习模型在测试数据集上的预测表现优于深度学习模型，而深度学习模型在验证集上表现良好，但在测试集上表现欠佳，可能是由于数据规模较小所导致。整体来看，XGBoost模型在12小时滞后步长的场景下，MAPE值为5.24%，表现最佳。XGBoost模型结合时间特征工程能够较好地处理多变量时间序列数据，预测准确性高且结果稳定。

图3 传统机器学习模型和深度学习模型的比较评估结果

为进一步分析模型在动态环境中的预测能力，本研究采用XGBoost模型对出水水质进行了动态模拟。通过设置不同的滞后步长（6小时、9小时、12小时），对pH、浊度、高锰酸盐指数和余氯等水质特征进行了多时间步长的预测。从图4结果来看，6小时和9小时的短滞后步长能够更准确地捕捉即时波动，预测精度更高，但也可能对噪声更敏感。相比之下，12小时的长滞后步长预测较平滑，但可能会导致检测出水水质变化的延迟。对于pH值和浊度，基于12小时滞后步长的预测趋势，较长的滞后步长更适合，因为模型对pH值变化的反应有时过早，特别是在第5个时间步长之后。而高锰酸盐指数和余氯的预测则略晚于实际值，表明对这些特征采用较短的滞后步长可能更合适。整体来看，XGBoost模型在12小时滞后步长的模拟中表现出良好的稳定性和可靠性，证明了它在不同水质情境中的适应性。这些结果与预测精度一致，表明12小时滞后步长是减少试剂投加滞后效应、优化水质预测的最佳选择。因此，动态模拟结果表明，这些时间序列机器学习模型提高了我们在动态操作环境中可靠预测水质的能力。不同滞后步长的模拟为模型参数调整和预测策略的优化提供了重要见解，从而提高了实时监测和控制水质参数的效率。基于预测分位数的长期动态模拟结果提供了模型预测可靠性和准确性的全面评估，这有助于通过水质数据制定提升模型准确性的策略。

图4 XGBoost模型在不同滞后步长设置下对四个出水水质变量的动态模拟结果：（A）pH；（B）高锰酸盐指数；（C）浊度；（D）余氯

为了深入了解模型的预测机制，本研究采用了Shapley additive explanations（SHAP）方法对模型进行了可解释性分析。通过计算每个输入特征的SHAP值，评估其对模型预测的贡献和影响程度。图5结果表明，输入特征中的原水水质特征对相应的出水特征预测具有重要作用。在pH预测中，主加氯量是第二重要的特征，氯化过程中生成的次氯酸和盐酸会将pH调至弱酸性。此外，藻类密度、温度、混凝剂投加量和溶解氧也对pH预测产生影响，其中藻类密度通过光合作用生成的氢氧化物离子可提高pH值，温度通过影响藻类的光呼吸过程而改变pH值。在高锰酸盐指数预测中，预臭氧投加量能够提高混凝效果，显著提升有机物去除率，主加氯量与高锰酸盐指数的预测呈正相关，混凝剂投加量和原水pH值也影响有机物的去除。在浊度预测中，混凝剂投加量和原水高锰酸盐指数的数值是关键特征，混凝过程主要去除浊度，混凝剂投加量对浊度和有机物去除有直接影响，原水温度和pH值同样重要，主加氯量还影响消毒效果。对于余氯预测，温度、主加氯量和高锰酸盐指数是最重要的特征，温度显著影响余氯值，主加氯量与余氯呈正相关，并受到高锰酸盐指数的影响，藻类密度则与余氯正相关，氯化可快速失活藻类并降解毒素。通过SHAP分析，本研究不仅揭示了模型如何根据输入特征做出预测，还为水处理过程的优化提供了理论依据。模型可解释性分析的结果表明，通过优化关键特征（如试剂投加量和原水水质参数），可以有效提高水质预测的准确性和处理效率。

图5 四个出水水质变量的前十个输入特征的平均绝对SHAP值：（A）pH值；（B）高锰酸盐指数；（C）浊度；（D）余氯

本研究提出了一种基于机器学习的创新方法，通过XGBoost增强的时间序列特征工程，有效捕捉饮用水处理中的复杂关系。通过考虑多种药剂投加的时间滞后效应，模型预测准确性显著提高。使用SHAP分析揭示了进出水水质和药剂投加量的重要关系，提升了实际应用价值。结果表明，数据驱动技术可显著改善水处理行业的效率和可靠性，确保高质量的饮用水供应。

作者介绍

曲申，北京理工大学教授、博士生导师，能源与环境政策研究中心副主任。长期从事环境系统工程、环境管理以及相关数据科学方法与复杂系统建模研究。主持国家自然科学基金杰出青年基金、优秀青年基金和面上项目、国家重点研发计划课题、国家长江生态环境保护修复联合研究中心项目、企业合作项目等。在The Innovation，Nature Communications，Engineering，Environmental Science & Technology，Global Environmental Change等国内外重要期刊发表论文100余篇，研究成果在国家水网电网规划建设、环境基础设施布局优化、煤化工企业减污降碳等方面获得应用，为生态环境部、国家发改委、三峡集团、中国水环境集团等国家部门及企业提供决策支持。获贵州省科技进步一等奖、循环经济科技创新青年突出贡献奖、中国产业生态学会青年学者奖等荣誉。兼任中国环境科学学会青年科学家分会副主任委员、中国“双法”研究会能源经济与管理分会常务理事等学术职务。担任SCI期刊Resources，Conservation and Recycling（2024年IF 11.2）副主编、Journal of Cleaner Production（2024年IF 9.7）执行编辑。

通讯邮箱：squ@bit.edu.cn

投稿、转载、合作、申请入群可在后台留言（备注：姓名+微信号）或发邮件至sthjkx1@163.com

【点击下方超链接阅读16个栏目推文】

1.【直播】	9.【院士】
2.【视频】	10.【综述】
3.【健康&毒理】	11.【写作】
4.【水】	12.【Nature】
5.【气】	13.【Science】
6.【土】	14.【WR】
7.【固废】	15.【EST】
8.【生态】	16.【JHM】