本研究提出了一种新型空间机器学习模型,即地理高斯过程回归(Geographical Gaussian Process Regression,GGPR)。GGPR 在传统高斯过程回归(GPR)的基础上,引入了“地理学第三定律”(朱阿兴等
2018&2022)中的核心概念“空间相似性”原则进行校准,可同时用于空间预测(Spatial Prediction)与探索性空间数据分析(Exploratory Spatial Data Analysis, ESDA)。GGPR 解决了空间机器学习中的一些关键挑战:● 首先,作为一种基于非独立同分布假设的概率模型,GGPR 避免了空间自相关与“独立同分布(i.i.d.)”假设之间的冲突,从而提升了模型在空间预测中的客观性与可靠性。● 其次,GGPR 适用于小样本预测——这一点恰恰是许多现有模型所不擅长的。
● 最后,通过与可解释模型GeoShapley结合 (李子奇 2024),GGPR能够解释空间效应和预测结果。在两个不同的数据集上评估表明,GGPR 在不同采样比例下均展现出优于其他主流机器学习模型的预测性能,尤其是在小样本训练集下优势更为明显。作为 ESDA 模型,GGPR 在回归精度、计算效率方面相比地理随机森林(Geographical Random Forests, GRF)和多尺度地理加权回归(Multiscale Geographically Weighted Regression, MGWR)表现更佳,并且在空间效应解释能力上可与MGWR相媲美。
简而言之,GGPR 为空间数据科学家提供了一种新的工具,用于理解与预测复杂的地理过程。
- 传统机器学习模型大多基于 i.i.d.(独立同分布)假设,但地理空间数据天然存在空间自相关。这种空间依赖性与传统模型假设存在直接冲突,导致模型结果过于乐观和存在偏见。
- 现有基于空间依赖性或者空间异质性的空间机器学习方法对小样本数据不友好。
- 许多现有的机器学习模型难以揭示空间效应和理解地理过程。
GGPR 是 GPR 的扩展,构建在
scikit-learn 框架之上(scikit-learn 是一个用于机器学习的 Python 工具包),它是一种以概率方式进行预测的非参数回归方法。如图1所示,GGPR 具有两个功能:
研究使用两个真实数据集 (芝加哥网约车与脱欧公投数据集) 进行评估:文章展示了脱欧公投数据集的探索性空间分析结果:
GGPR在空间预测与探索性空间数据分析中展示出显著优势。主要结论包括:
GGPR 为相关领域的研究者提供了一种新的空间预测与分析工具,推动了“地理学第三定律”在空间机器学习方面的应用,也为 GeoAI 的相关研究提供了新的范例。
代码和测试数据:
https://github.com/Josephjiao7/Geographical-Gaussian-Process-Regression
引用:
Jiao, Z., & Tao, R. (2025). Geographical Gaussian Process Regression: A Spatial Machine
‐Learning Model Based on Spatial Similarity. Geographical Analysis. https://doi.org/10.1111/gean.12423
参考文献:
Zhu, A. X., Lu, G., Liu, J., Qin, C. Z., & Zhou, C. (2018). Spatial prediction based on Third Law of Geography.Annals of GIS, 24(4), 225-240.
Zhu, A. X., & Turner, M. (2022). How is the third law of geography different?.Annals of GIS, 28(1), 57-67.
Li, Z. (2024). Geoshapley: A game theory approach to measuring spatial effects in machine learning models.Annals of the American Association of Geographers, 114(7), 1365-1385.