2.1 方法
使用随机森林回归算法(RFR)构建估算模型,用到的特征变量包括:MODIS大气表观反射率、太阳天顶角(SZA)、卫星天顶角(VZA)、纬度、高程(DEM)和日地距离系数(Dr)。模型估算主要包括两个步骤:
第一步:初始化估算模型
为了匹配逐时的ERA5数据和瞬时MODIS数据,采用三次样条插值法对与MODIS过境时刻邻近的6个小时的ERA5数据进行插值。然后,采用均值聚合的方法将MODIS TOA反射率等自变量聚合到ERA5的空间尺度(0.25°)。最后,基于RFR算法,构建空间聚合后的自变量和ERA5 DSSR之间的关系模型。
第二步:通过迭代修正模型
在0.25°空间尺度构建的初始模型能大致反映特征变量和DSSR间的非线性关系。然而,由于初始模型是在粗空间分辨率尺度上构建的,无法刻画DSSR和相关变量的细节特征。因此,直接用该模型估算得到的0.01°空间分辨率的DSSR会引入一定的不确定性。为了优化该模型,本研究在0.01°空间尺度上将初始模型估算的DSSR用于训练新的估算模型,然后用该模型的DSSR估算结果再训练新的估算模型。当测试集RMSE的减少量(即图2中的∆RMSE)小于1W m-2时,停止迭代建模的过程,从而得到最终的估算模型及对应的DSSR估算结果。
2.2 结果
模型敏感性分析结果(图3)表明:与地外太阳辐射相关的Dr、SZA、VZA和纬度在晴空模型中的贡献大于阴天模型。在最终模型(Final)中,这四个因素在晴空模型中占86.34%,而在阴天模型中仅占38.75%。大气表观反射率数据携带较多的大气路径信息,在阴天模型中占主导地位。在这些MODIS波段中,B18和B19在晴空模型中有影响,而B1和B3在阴天模型中占主导地位。初始(Init)模型和Final模型之间的差异主要源于空间尺度的改进。此外,不断迭代的训练过程有助于模型达到更稳定的状态。
图3. 晴空模型(a)和阴天模型(b)中输入变量的特征重要性
参照MODIS真彩色影像的空间分布发现:Init模型和Final模型估算DSSR都比较合理(图4)。从局部框选的区域来看,迭代过程有助于将DSSR估算结果中不合理的部分调整为更合理的分布。
图4. Init和Final模型的DSSR分布及对应的MODIS真彩色影像
从模型测试集精度来看(图5),在前两轮训练中模型精度改善显著,后面几轮的改善程度趋于平缓。
为了更好地评估研究估算的DSSR结果,引入了几种主流DSSR产品(ERA5、Himawari-8和MCD18A1)做交叉对比。从空间分布来看,本研究估算得到的DSSR空间分布和其它卫星DSSR产品总体接近。MCD18A1产品也是以MODIS大气表观反射率为主要数据源估算得到的产品,采用的方法是查找表法。对比图6(l)和(p),MCD18A1 DSSR在晴空区域存在格网噪声,而本研究估算的DSSR分布更为合理。从站点验证精度来看(图7),本研究估算DSSR精度最高。
图7. 站点观测DSSR值和DSSR估计值的散点图:(a)ERA5、(b)Himawari-8、(c)MCD18A1和(d)本研究估算结果。