本次 Python 地理空间系列 Workshop 是由和鲸社区发起的,聚焦 Python 地理空间数据分析,全程提供免费基础算力和上手即用的数据分析工具,面向所有人免费开放,欢迎所有地理空间领域人才和对地理空间数据科学感兴趣的数据分析师共同参与、交流。
除了本文介绍的《用深度学习补全时序数据的缺测值》,更有多个系列workshop活动可供报名学习:
以下为活动介绍正文
在气象学等地球科学领域,多变量时间序列数据的应用无处不在,它帮助我们揭示气候、环境和生态系统背后的规律。然而在实际的时间序列数据采集过程中,常常会遇到传感器失效、传输错误等问题,导致部分数据缺失,给科学家们开展高级分析和模式识别任务带来了巨大挑战,比如气候变化分类或不同区域天气现象聚类。借助 Wenjie Du 等人提出的 SAITS(基于自我注意力的时间序列补全)新型模型,我们可以通过一种联合优化的训练方法来学习缺失值,这种方法同时考虑了补全和重建的任务,从而更巧妙地处理缺测值。本期 workshop 中,你将学习如何利用 SATIS 模型处理北京多站点空气质量数据集的缺测值,并尝试练习补全某机场的风向风速观测数据的缺测值。
SATIS: 基于自我注意力的时间序列补全
联合优化训练方法(Joint-optimization Training Approach)
在时间序列数据的处理中,我们经常会遇到数据缺失的情况。为了解决这个问题,SATIS引入了两种任务:掩蔽预测任务(MIT)和观测重建任务(ORT)。这两种任务相互补充,共同帮助我们更准确地补全缺失的数据。
掩蔽预测任务(MIT)
掩蔽预测任务(MIT)有点像是我们和模型玩的一个“猜猜看”游戏。我们随机选取一部分观测到的数据,将其“掩蔽”起来,也就是不让模型看到这些数据。然后,我们让模型尝试去预测这些被掩蔽的数据应该是多少。这样做的目的是迫使模型学会如何准确预测缺失的值。我们通过计算模型预测值和真实值之间的平均绝对误差(MAE)来衡量模型的预测效果。
观测重建任务(ORT)
这个任务相对简单,就是让模型尽量准确地重建那些没有被掩蔽的观测数据。我们同样使用MAE来衡量模型重建的效果。这个任务的重要性在于,它不仅要求模型能够预测缺失的数据,还要求模型能够保持观测数据的准确性。
SAITS模型
SAITS模型由两个加权对角掩蔽自我注意力(DMSA)块组成,这使得SAITS摆脱了RNN的束缚,能够显式地捕捉时间步之间的时序依赖性和特征相关性。
· 特邀导师 ·
Hollis 冬青 航天新气象科技有限公司工程师。毕业于南京信息工程大学大气科学专业,本科及研究生期间主要从事数值模式、气溶胶领域的研究,工作后从事数值模式、软件开发、人工智能等研究工作。擅长气象数据处理、数值天气模式、气象与深度学习结合等领域。 · 课程大纲 ·
- 联合优化训练方法(Joint-optimization Training Approach)
- 使用 SATIS 对北京多站点空气质量数据集进行缺测补全
· 日程安排 ·
- 4.27:准时参加 30 分钟的主题讲解交流会(会议号:111-883-801)
https://www.heywhale.com/u/529405