Earth's Future | 可解释的机器学习如何促进地球科学中的过程理解

可解释的机器学习如何促进地球科学中的过程理解

摘要

Interpretable Machine Learning (IML) has rapidly advanced in recent years, offering new opportunities to improve our understanding of the complex Earth system. IML goes beyond conventional machine learning by not only making predictions but also seeking to elucidate the reasoning behind those predictions. The combination of predictive power and enhanced transparency makes IML a promising approach for uncovering relationships in data that may be overlooked by traditional analysis. Despite its potential, the broader implications for the field have yet to be fully appreciated. Meanwhile, the rapid proliferation of IML, still in its early stages, has been accompanied by instances of careless application. In response to these challenges, this paper focuses on how IML can effectively and appropriately aid geoscientists in advancing process understanding—areas that are often underexplored in more technical discussions of IML. Specifically, we identify pragmatic application scenarios for IML in typical geoscientific studies, such as quantifying relationships in specific contexts, generating hypotheses about potential mechanisms, and evaluating process-based models. Moreover, we present a general and practical workflow for using IML to address specific research questions. In particular, we identify several critical and common pitfalls in the use of IML that can lead to misleading conclusions, and propose corresponding good practices. Our goal is to facilitate a broader, yet more careful and thoughtful integration of IML into Earth science research, positioning it as a valuable data science tool capable of enhancing our current understanding of the Earth system.

可解释机器学习（IML）近年来发展迅速，为增进我们对复杂地球系统的理解提供了新的机遇。IML 超越了传统的机器学习，它不仅能做出预测，还能阐明这些预测背后的原因。预测能力和更高透明度的结合，使得 IML 成为一种很有前途的方法，可以揭示传统分析可能忽略的数据关系。尽管 IML 潜力巨大，但其对该领域的广泛影响仍有待充分认识。与此同时，IML 仍处于早期阶段，在其迅速普及的同时，也出现了应用不慎的情况。为了应对这些挑战，本文重点讨论了 IML 如何有效、适当地帮助地球科学研究者加深对过程的理解--而这些领域在关于 IML 的技术讨论中往往未得到充分探讨。具体来说，我们确定了 IML 在典型地球科学研究中的实用应用场景，如量化特定环境中的关系、生成潜在机制假设以及评估基于过程的模型。此外，我们还介绍了使用 IML 解决具体研究问题的通用实用工作流程。特别是，我们指出了使用 IML 时可能导致误导性结论的几个关键和常见陷阱，并提出了相应的良好做法。我们的目标是促进 IML 更广泛、更仔细、更周到地融入地球科学研究，将其定位为一种有价值的数据科学工具，能够增强我们目前对地球系统的理解。

关键点

We demonstrate the broader relevance of Interpretable Machine Learning (IML) to most geoscientists and underexplored opportunities for its use（我们展示了可解释机器学习（ IML）与大多数地球科学研究者的广泛相关性，以及尚未充分开发的使用机会）

We describe a workflow for the effective use of IML while cautioning against potential and common pitfalls（我们描述了有效使用 IML 的工作流程，同时提醒注意潜在和常见的陷阱）

We suggest good practices for its adoption and advocate for more careful application to ensure reliable and robust insights for the field（我们提出了采用 IML 的良好做法，并倡导更加谨慎地应用 IML，以确保为该领域提供可靠和有力的见解）

主要图表

图1 在可解释的 ML（IML）框架内，探讨数据、机器学习（ML）模型和事后解释技术之间的关系，以及其结果在地球科学研究中的实用性。在这种情况下使用 IML 的主要目的是揭示用于预测的数据中的关系。深蓝色箭头代表从数据到不透明的 ML 模型，再到使 ML 模型可解释的事后解释技术的流程。所揭示的关系可为地球科学研究的各个方面提供支持，绿色方框表示在过程理解方面与更广泛的地球科学研究直接相关的应用。

图2 应用可解释机器学习地球科学过程理解的工作流程和示例。(a) 流程图说明了一般工作流程，其中灰色框代表对象，红色框代表操作（在相应的小节中解释）。(b–g) 说明了不同类型数据的算法解释结果如何转化为科学理解，示例来自文献（在第3.5节中简要解释，并在支持信息S1的文本S4中详细说明）。(b, e) 修改自Davenport和Diffenbaugh（2021），其中(b)显示了某天的海平面压力异常图，IML得出的逐像素相关性指示其对该天被分类为大规模极端降水环流模式（EPCP）的贡献。(e) 展示了EPCP天的复合相关性图，汇总了(b)中示例的相关性图。(c, f) 改编自Jiang、Bevacqua和Zscheischler（2022）。 (c) 显示了IML得出的180天内降水、温度和日长的特征重要性，以预测次日的流量。(f) 展示了应用于所有事件和流域的特征重要性值的聚类分析结果，条形图显示了平均特征贡献模式（aP：事件前180到7天的前期降水），地图显示了各流域中事件属于此聚类的比例。(d, g) 改编自H. Wang等（2022）。(d) 表示了估计的SHAP值中七个变量对特定样本的总初级生产力预测贡献，这些变量的实际值以灰色显示。(g) 的顶部图展示了所有变量的特征贡献（x轴）与值（颜色）之间的关系。底部图是草地上水汽压亏缺（VPD）与其沿土壤水分含量（SWC）梯度的贡献值的依赖图。更多信息，包括其他缩写的定义，请参见各自的参考文献。

图3 地球科学可解释机器学习（IML）应用中的常见陷阱。(a) 机器学习模型训练可能导致欠拟合、过拟合、捷径学习或成功捕捉到基础数据生成过程。这些结果可以通过训练数据、独立同分布（i.i.d.）测试数据和分布外（o.o.d.）测试数据上的模型性能来反映，如图中对应的链接所示。(b) 预测目标与因果目标的区别。预测模型通常仅捕捉数据的观测分布，不能与基于干预分布的因果见解等同。(c) 强烈相互依赖的输入变量可能由于对目标输出提供类似信息，在不同模型运行中导致特征重要性得分变化。(d) 不同的方法选择可能导致多样化的见解，从而在解释过程中引入不确定性。(e) 复杂模型可能准确捕捉复杂的数据模式，但解释可能难以为人类直观理解，妨碍从IML框架中获得可操作的见解。

引用方式

Jiang, S., Sweet, L.‐b., Blougouras, G., Brenning, A., Li, W., Reichstein, M., et al. (2024). How interpretable machine learning can benefit process understanding in the geosciences. Earth's Future, 12, e2024EF004540. https://doi.org/10.1029/2024EF004540