在过去的十年里,深度学习在各个应用领域取得了显著进展,这些应用范围从图像分类到语言建模。诸如自监督学习这样的序列建模原语对于自然语言处理和基因组学等领域的许多最近的突破负有重任。尽管有这些进步,现有的原语仍然难以建模从物理传感器获取的大类数据。我们将这类数据称为信号数据,它有几个独特的特征,使得建模变得具有挑战性。首先,从连续信号得到的数据的所选择的分辨率显著影响模型的训练和泛化能力。其次,信号数据通常以高速率采样,导致长或密集的数据,这需要模型具有捕获长距离依赖的强大能力。最后,信号数据高度多样化,在健康医疗、视频处理和工业感知等各个领域都有应用,这提高了为建模这些数据制定通用方法的标准。
本论文开发了一套新的方法,用于使用状态空间模型对信号数据进行建模。首先,我们介绍了一种叫做S4的状态空间序列模型,作为建模信号数据的通用基础构件。其次,我们将这种建模层推广到像图像和视频这样的多维信号,产生了第一个在如ImageNet这样的大规模基准测试上的连续信号状态-of-the-art模型。接下来,我们展示了如何将S4整合到一个多尺度架构中,这使得模型能够处理极长序列的音频,包括之前未解决的关于无条件自回归生成原始音频样本的任务。最后,我们证明了状态空间建模方法对各种信号数据的广泛适用性,包括在诊断胃食管反流病中使用的阻抗传感器数据的一个真实世界应用。综合起来,这套新的方法提供了一套用于建模多样化、多维信号的通用且多功能的基础构件。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
点击“阅读原文”,了解使用专知,查看获取100000+AI主题知识资料