【文献学习】遥感影像、社会感知和集成机器学习模型，进行城市洪涝灾害易发性制图

本推文来源：ENV Yuan

摘要

洪水易感性地图对城市灾害管理至关重要。然而，城市土地利用的异质性和地形的复杂性对洪水模型的准确性和泛化性提出了挑战。本文提出了一个城市洪水制图的EMF模型框架。具体而言，将社会传感和遥感用于洪水信息收集。使用XGBoost、支持向量分类器(SVC)、多层感知器(MLP)和多模态深度学习(MDL)作为预测模型，并使用随机森林模型对其结果进行集成以产生最终结果。结果表明，EMF模型优于独立模型，在训练集和测试集上的准确率分别为0.942和0.940。五个模型的精度排名为:EMF > MDL > XGBoost > SVC > MLP。洪水图表明，与城市中心城区相比，洪水对城市郊区和近郊的影响更大。农田是受影响最严重的土地类型，占被淹面积的54.8%。总体而言，拟议的框架能够快速准确地识别易受洪水影响的地区，为管理者制定有效的防洪策略提供技术支持。

研究背景

极端降水事件频发导致城市洪灾严重，但传统洪水监测方法和模型存在局限。传统方法依赖现场观测，无法提供实时全面数据且有风险；水文和水力模型数据要求高、参数复杂，数据驱动方法中的经验方法和单一机器学习模型在城市应用中也有不足，如准确性有限、受数据影响大等。社会感知可提供实时灾害信息，混合模型有望克服单一模型的局限性，因此本研究旨在提出更可靠的洪水区域提取方案，验证EMF模型性能并绘制洪水空间分布。

研究区域与数据

研究区域：天津是人口超1500万的沿海大都市，位于华北平原，是海河支流永定河河口，易受洪水侵袭，历史上多次发生严重洪灾，如1963、1996、2012年等，2023年7月31日的暴雨也造成了广泛洪灾，故选择天津作为研究区域。

卫星数据：使用Sentinel - 1SAR数据（分辨率10m）提取洪水区域，经校准和处理后从 GEE平台获取，提取VV、VH极化及组合信息；用Sentinel - 2影像（13个光谱通道，分辨率 10m）提取永久水体，采用DSWE算法计算水体范围。

洪水影响因素：选取NDVI、土地覆盖等土地利用因素和到河流距离、坡度等地形因素，通过相关性分析和随机森林特征重要性排名（FFIR）筛选输入变量，地形数据来自30m SRTM DEM影像，NDVI由Landsat8 - OLI影像计算得出。

表1 Sentinel-1SAR数据中的各种极化组合

研究方法

社会感知：利用社交媒体平台（今日头条、YouTube、TikTok、快手）收集洪水信息，建立关键词系统，通过Python库获取帖子信息并提取地理坐标，依据时间、内容和来源可靠性等标准过滤数据。

图2 本研究使用的土地利用和地形数据集。(a) NDVI，(b)与河流的距离，(c)坡度，(d)海拔，(e) TWI， (f)土地覆被，(g)坡向，(h) Sentinel-1 VV偏振波段

图3 社会传感数据采集过程示例

ML模型：构建EMF集成模型，包括XGBoost、SVC、MLP、MDL 四个子模型和RFC集成模型。分别介绍了各模型的特点、适用场景、参数设置及目标函数，如XGBoost适合处理结构化数据，通过调整 n_estimators、learning_rate 等参数优化模型。

模型开发：包括数据集准备（获取洪水和非洪水样本地理坐标，处理数据，筛选特征并划分训练集和测试集）、集成模型构建（用训练集训练子模型，RFC拟合残差，测试集验证）和城市洪水范围提取（应用EMF模型分类，结合DSWE算法和过滤方法确定最终范围）三个步骤。

图4 基于遥感、社会传感和EMF模型的城市洪涝面积提取技术框架

图5 EMF模型的结构

性能评估指标：采用准确率、召回率、精度、误报率和F1分数评估模型性能，给出了各指标的计算公式及含义。

研究结果

模型特征选择：分析输入特征与洪水发生的相关性，确定VVVH、VV²VH²等极化波段和到河流距离等为关键特征，经FFIR方法筛选后作为最终输入变量。

图6 各输入特征与洪水发生的相关性，星号表示相关性显著（p <0.05）

图7 与洪水显著相关的因素的重要性排名。使用箱形图描述了100 (n)次模型迭代的结果，说明了中位数(每个箱内的竖线)和四分位数范围(箱的宽度)

表2 模型开发的最优特性

模型评估指标性能：EMF 模型在训练集和测试集上准确率分别为0.942和0.940，在五种模型（EMF、MDL、XGBoost、SVC、MLP）中准确率、精度和F1分数最高，召回率和MR *值适中。

图8 使用XGBoost、SVC、MLP、MDL和EMF模型对训练数据集(a)和测试数据集(b)进行性能评估。为了方便在统一尺度上对不同模型的分类精度进行视觉比较评估，通过添加0.8来调整所有模型的缺失率值。调整后的度量在图中用MR*表示

不同ML模型映射性能：在农田、山区和城市地区，各模型提取的洪水区域有差异。农田中一致性较高，但单一模型在小村庄和道路区域易低估；山区因阴影和地形复杂，单一模型低估山谷洪水；城市中由于水和路面反射及建筑物影响，单一模型低估更严重，EMF模型表现更优。

图9 四种独立ML模型与EMF模型在农田[(a) - (e)]、山区[(f) - (j)]和城市地区[(k) - (o)]的洪水面积提取比较。蓝色表示独立模型提取的洪涝面积。黄色表示EMF模型确定的其他受洪水影响的地区。(a)、(f)和(k)比较了XGBoost和EMF模型提取的洪水面积。同样，(b)、(g)和(l)比较了SVC和EMF模型;(c)、(h)和(m)比较MLP和EMF模型;(d)、(i)和(n)比较MDL和EMF模型。(e)、(j)和(o)分别描绘了不同模型在局部放大的农田、山区和城市地区提取的洪水边界。红色、棕色、蓝色、紫色和绿色分别代表EMF、MDL、MLP、XGBoost和SVC提取的洪水范围

洪水区域映射：EMF模型估计的洪水面积最大，为1265.14 km²，洪水主要位于天津中东部和南部，西部较小且分散，北部山区洪水集中在山脊和山谷。

图10 (a) 2023年7月31日天津市XGBoost、SVC、MLP、MDL和EMF模型提取的总洪水面积对比。(b)利用EMF模型分析天津洪涝面积的空间分布。红色实线代表中心城区，虚线代表郊区。灰色底图对应于使用VV偏振波段的Sentinel-1 SAR数据

讨论

敏感性分析：通过不同训练 - 测试配置进行敏感性分析，EMF模型在小样本训练下稳定性最好，相比单一模型，其稳定性和性能更优。

图11 训练数据集(a, c, e)和测试数据集(b, d, f)中模型的准确率、召回率和精度的比较，使用不同百分比的训练数据进行。设置了三个模拟场景，分别使用70%、60%和50%的总样本来训练XGBoost、SVC、MLP、MDL和EMF模型

社会感知：社会感知可提供洪水信息，但数据有噪声和不准确问题，通过严格过滤可获取有效数据，实验表明纳入社会感知数据可提高模型识别洪水区域的性能。

表3 与洪水相关的社交文本信息示例

图12 四种独立ML模型和EMF模型在训练数据集和测试数据集中没有社会感知数据的场景下的准确率比较，以及模型对社会感知数据集的预测性能

洪水风险管理：分析天津降水数据，强调准确提取洪水区域对灾害管理的重要性。发现农业区是主要洪泛区，政府应加强农业区基础设施建设；郊区和郊外洪水更严重，应制定针对性计划；同时要加强对城市低洼桥梁等关键位置的监管。

图13 利用Sentinel-1 SAR数据和EMF模型绘制2018 - 2023年5次暴雨的洪水图。(a) - (e)特定日期的空间制图。(f)至(j)不同土地利用类型与中心城区(CUA)、郊区(SA)、郊区(OA)在相应日期的洪水覆盖面积比例。(k) ERA5数据获取的2024年1月至2023年11月31日的平均降水量。虚线代表官方定义的暴雨和暴雨事件标准

与先前研究比较：本研究提出的EMF模型相比以往研究，数据获取更方便，适用于复杂城市土地覆盖，准确性更高，能快速获取可靠信息并监测洪水区域。

模型局限性：EMF模型依赖输入数据质量，区域适用性有限；模型选择和配置有挑战；结构和参数复杂，计算成本高。

结论

极端降水事件中进行洪水监测和洪水灾害风险评估对保障居民生命财产安全具有重要意义。在本研究中，开发了一种名为EMF模型的混合ML模型，用于使用Sentinel-1 SAR图像识别洪水易发地区。通过使用特征选择和多模型集成策略，与独立的ML模型相比，EMF模型可以进一步提高分类精度。通过引入敏感性分析，我们的结果表明，EMF模型在不同比例的训练数据集上表现出稳健的性能。此外，EMF模型在基于卫星的应用中显示出实际的适用性，与其他模型相比，在提取不同土地覆盖类型的洪水淹没范围方面显示出更高的准确性。利用EMF模型和Sentinel-1SAR图像对2023年7月31日天津洪水淹没区域进行了最终的地图绘制。结果表明，天津洪水淹没区主要集中在城郊和山区；这表明天津的防洪排水措施得到了很好的实施。然而，城市立交桥地区和农村地区仍需采取防洪措施。总体而言，本文提出的方案显示了机器学习模型和卫星-卫星数据识别洪水易发地区的潜力，这可以帮助决策部门实施有效的洪水响应措施并启动物资救援行动。

展望

就未来的工作而言，本研究将主要侧重于三个方面。首先，整合额外的数据源与遥感数据和社会传感数据，如历史洪水记录、水位和道路传感器数据，以收集更可靠的洪水样本数据。第二，将更多的ML和深度学习模型整合到集成ML框架中，进一步提升城市洪水易感性制图的准确性和性能。第三，评估所提出方法在其他城市地区的可移植性和可扩展性，以支持在不同地理背景下采用洪水制图技术。