模型特征选择:分析输入特征与洪水发生的相关性,确定VVVH、VV²VH²等极化波段和到河流距离等为关键特征,经FFIR方法筛选后作为最终输入变量。
图6 各输入特征与洪水发生的相关性,星号表示相关性显著(p <0.05)
图7 与洪水显著相关的因素的重要性排名。使用箱形图描述了100 (n)次模型迭代的结果,说明了中位数(每个箱内的竖线)和四分位数范围(箱的宽度)
表2 模型开发的最优特性
模型评估指标性能:EMF 模型在训练集和测试集上准确率分别为0.942和0.940,在五种模型(EMF、MDL、XGBoost、SVC、MLP)中准确率、精度和F1分数最高,召回率和MR *值适中。
图8 使用XGBoost、SVC、MLP、MDL和EMF模型对训练数据集(a)和测试数据集(b)进行性能评估。为了方便在统一尺度上对不同模型的分类精度进行视觉比较评估,通过添加0.8来调整所有模型的缺失率值。调整后的度量在图中用MR*表示
不同ML模型映射性能:在农田、山区和城市地区,各模型提取的洪水区域有差异。农田中一致性较高,但单一模型在小村庄和道路区域易低估;山区因阴影和地形复杂,单一模型低估山谷洪水;城市中由于水和路面反射及建筑物影响,单一模型低估更严重,EMF模型表现更优。
图9 四种独立ML模型与EMF模型在农田[(a) - (e)]、山区[(f) - (j)]和城市地区[(k) - (o)]的洪水面积提取比较。蓝色表示独立模型提取的洪涝面积。黄色表示EMF模型确定的其他受洪水影响的地区。(a)、(f)和(k)比较了XGBoost和EMF模型提取的洪水面积。同样,(b)、(g)和(l)比较了SVC和EMF模型;(c)、(h)和(m)比较MLP和EMF模型;(d)、(i)和(n)比较MDL和EMF模型。(e)、(j)和(o)分别描绘了不同模型在局部放大的农田、山区和城市地区提取的洪水边界。红色、棕色、蓝色、紫色和绿色分别代表EMF、MDL、MLP、XGBoost和SVC提取的洪水范围
洪水区域映射:EMF模型估计的洪水面积最大,为1265.14 km²,洪水主要位于天津中东部和南部,西部较小且分散,北部山区洪水集中在山脊和山谷。
图10 (a) 2023年7月31日天津市XGBoost、SVC、MLP、MDL和EMF模型提取的总洪水面积对比。(b)利用EMF模型分析天津洪涝面积的空间分布。红色实线代表中心城区,虚线代表郊区。灰色底图对应于使用VV偏振波段的Sentinel-1 SAR数据