Generalized Signature Method(GSM)是一种对多变量时间序列特征提取的一般化方法。其架构主要包含四个部分:数据增强、窗口设定、特征提取、尺度放缩。其中数据增强主要有三种作用,分别是敏感性引入、降维以及新信息引入,不同的增强方式实现不同的功能,数据增强可以使得算法更高效地提取序列信息,降维方法在变量维数较高的场景中效果明显。窗口设定主要是对序列的划分,使得算法可以从全局、局部、增量信息、不同尺度与层次等多个方面提取子序列信息。特征提取主要包括Signature与Log-signature这两种方法,其可以将时间序列信息转化为一个截面的特征集,信息转化效率高,另外唯一性与线性估计性等良好的性质使得Signature成为机器学习任务的重要特征集;Log-signature相对于Signature含有的信息相同但其特征数量更少。GSM可以作为深度学习架构中的一部分,其可以实现梯度传导且支持GPU加速,大幅提升了对高频数据流的处理效率。尺度放缩是对序列或特征进行数量级的调整的一种方法,希望提升后续模型的训练效果。
GSM具有较强的灵活性,具有相当多的变体可以适应不同的任务,并且可以融入到任意的网络架构中处理多变量的高频序列。由于Signature与Log-signature特征数量与序列长度无关,这使其可以处理神经网络难以处理的高频、不规则采样等类型的序列。另外报告中介绍了一组综合最优的设定选择,来自于文献在26个数据集上的实验结果,可以作为GSM设定的先验知识。
GSM-Alpha将GSM与两个神经网络模块相结合,分别实现了时序特征提取、特征间的混合以及股票间关联信息的挖掘。整个架构的模块间实现残差链接。对比实验结果表明元素投影的降维方法效果好于可学习的方法,股票间信息混合提供了信息增益,日频序列信息与分钟级序列数据相结合得到的因子alpha提升明显。全市场2018年1月至2024年5月的月频回测结果显示GSM-Alpha原始因子Rank IC:13.33%,ICIR:1.62,五分组多空年化:40.56%,多空Sharpe ratio:3.72;中性化后GSM-Alpha因子Rank IC:12.19%,ICIR:2.26,五分组多空年化:38.74%,多空Sharpe ratio:5.51,中性化后因子稳定性明显提升。因子分年度表现持续稳定,且在各个股票池中都有不错的表现,更偏向相对小市值的股票池。另外,由于训练目标原因原始因子值与市值的相关性并不高,中性化后略偏向低波动与低流动性风格,但相关性不高。
GSM-Alpha指数增强策略表现良好。在严格控制成分股占比、个股权重上限、跟踪误差、行业以及风格暴露下,基于GSM-Alpha因子的沪深300指数增强组合年化超额10.98%,超额Sharpe ratio:2.04;中证500指数增强组合年化超额14.99%,超额Sharpe ratio:2.39;中证1000指数增强组合年化超额17.72%,超额Sharpe ratio:2.45;国证2000指数增强组合年化超额20.76%,超额Sharpe ratio:2.98。费率均按双边千三计算。
风险提示:以上分析基于模型结果和历史测算,存在模型失效风险。
Signature方法最初来自于控制微分方程(Controlled differential equation)理论,它可以高效地从多元时间序列中提取特征,将变量深层次信息与多变量交互信息融合到一个截面特征集,后续再使用深度神经网络等模型进行处理。Signature特征提取算法大幅降低了多变量序列的处理难度,尤其是对高频序列而言。另外,Signatory[1]计算模块实现了梯度在Signature计算过程中的传播,使其可以作为深度神经网络的一部分,同时也支持计算的GPU加速,大幅提升了序列的特征提取效率。这些优势使得研究者可以直接将多变量序列作为输入,而非人工构造特征或是进行下采样(Down sampling)后的序列。
前期报告循序渐进地对Signature和Log-signature方法在高频量价序列上的应用进行研究。
《基于Logsig-RNN的高频数据低频化选股因子——机器学习系列之三》详细地介绍了路径的Signature和Log-signature概念与性质,并初步尝试了Log-signature与RNN类网络的结合模型,即将长序列分割为不同的patch,在每个patch上使用Log-signature提取特征,然后使用RNN类网络融合各个patch上的特征,该篇作为Signature方法的应用初探。
《日内成交量分布因子及 Logsig-Alpha 因子生成——因子选股系列之六》创新地将Logsig特征提取器与带正交层的MLP相结合,前者能够从时间序列中提取全局信息,后者将信息进行转化,生成一批两两近似正交的因子,实现对单序列信息的高效挖掘与快速因子生成。
《强化学习与基于RRL的因子合成方法——机器学习系列之四》同样使用Logsig-Alpha因子生成器,但在输入层面进行多样化改进。分别实现了对成交量、收盘价、收盘价与开盘价、最高价与最低价四个输入组合的因子生成。合成因子表现优异。
但前期报告的模型具有一定的局限性,比如:模型仅考虑变量较少的情形,因为随着变量维数的增加,提取到的特征数量近似呈指数级增长,使得后续的模型难以处理如此大规模的特征集。这就不得不面临输入维数与截断阶数的权衡。本篇报告参考[2]中的Generalized Signature Method(GSM),其将Signature方法的各个变体统一为一个一般化的形式,由数据增强(Augmentation)、窗口设定(Window)、特征提取(Transformation)与尺度放缩(Rescaling)四个部分组成,合适的设定可以帮助我们在很大程度上缓解由输入通道数(Channel)增加带来的问题,另外也可以达到更好的特征提取效果。
本报告的内容安排如下:
第2章介绍Signature方法在时间序列特征提取中的作用,以及引入[2]中的Generalized Signature Method,这是一个一般化的特征提取框架,分别介绍其中的四个模块以及设定与参数选择的经验。第3章将GSM应用在高频序列与日频序列上,使用强大的神经网络架构进行因子生成,之后测试因子在不同股票池上的表现以及给出指数增强策略。
Generalized Signature Method介绍
本章主要参考[2]中的内容,介绍一个一般化的特征提取框架。另外,[2]在26个数据集上进行实验来对比框架中四个部分的不同设定对结果的影响,给出了一组在多个数据集上综合更优的设定。
时间序列在进行数据处理时通常会面临一些困难:首先,当序列长度或变量维数增加时,庞大的数据量给传统方法带来挑战。另外,序列的各变量间存在着交互作用,如何根据样本数据挖掘出变量的关联性也是一个复杂的问题。最后,序列不总是规范的,比如在实际问题中可能会出现各变量序列长度不一或者采样频率不同的情况,如何在不降低模型效果的前提下将序列规范化也是一个重要的问题。
在解决方案中,以RNN、transformer为代表的神经网络能够处理可变长度的输入问题,另外也可以学习到变量间的交互作用,但在序列或变量维数上升时,模型训练和推理难度增大,比如难以处理高频数据流的输入。另外一个重要的方法就是特征提取技术,即将时间序列信息转化为一个截面的特征集,这一类方法中主要有shapelet变换[3],Gaussian过程适应器[4],以及Signature方法[5]等。
Signature方法相比于其他特征提取方法有如下优势:
(1) 高度的灵活性,能针对不同的数据集选用不同的处理方法。
(2) 强的理论保证,方法来自与粗糙路径理论(Rough path theory)。
(3) 可解释性强,每个特征都具有显性的计算公式。
(4) 信息转化效率高,特征集在一定条件下蕴含了序列中几乎全部的信息。
(5) 能够处理序列长度或采样密度不一的情况。
[2]中的实验结果表明:首先,经过敏感性引入方法增强后,相对baseline的表现均有不同程度的提升,单独使用基点增强提升不显著,但同时使用时间与基点增强方法综合效果最佳。这说明在具体任务中按需求针对不变性进行去除,能提升模型的表现。综合表现最优的是时间+基点增强以及时间+隐形重置增强,但后者会增加计算Signature时的输入通道,所以优先选择前者。
对于其他增强方式,Lead-Lag变换相对baseline有提升,这说明该方式可以让模型更容易地提取信息。元素投影方法相比于baseline,准确率并没有提升,其主要目的是降维,其中二维和三维元素投影表现显著优于一维,在需要对序列变量维度进行降维的场景中可以考虑应用。数据驱动型增强方式整体表现不佳,这类可学习的增强方式虽然实现了降维的目的,但是其大幅改变了原始序列使得可解释性变差,另外由于增强序列自身是可学习的,这对整个模型的训练带来了困难。但[2]中也提到,在一些任务中经过合适的调参,可学习方法会有更优的表现,这类方法的优化是未来值得期待的。
综上,综合最优的增强设定为:敏感性引入选择时间增强与基点增强同时进行,降维选择二维或三维元素投影,新信息引入选择Lead-Lag变换。
对于窗口设定的选择,[2]同样进行了对比实验,结果如下:
在不同的窗口设定选择中,滑动窗口的综合表现略弱于全局窗口,说明只考虑局部信息并不能提供增益。扩展窗口相对全局窗口取得了显著更优的表现,说明增量信息对于模型而言更加重要。层次二元窗口表现最佳,多尺度信息的考虑显著提升了模型的表现。
对于在特征提取时Signature与Log-signature的选择以及截断阶数的选择,[2]同样进行了对比实验,结果如下:
结果表明,Signature作为特征的表现要优于Log-signature,但是考虑生成特征的数量,两者还是需要权衡的。
在截断阶数选择上,随着截断阶数的增加模型效果变好,但是在5阶时达到最优,6阶时模型表现普遍开始下降。所以,4到5阶的截断阶数在各个数据集上普遍有不错的表现,同时也控制了生成的特征数量。
另外[2]对于不同的尺度放缩设定进行对比实验,结果如下:
结果表明,在不进行任何尺度放缩时,GSM表现最好。[2]中的对比实验为我们找到了一组先验较优的设定方式,我们在具体任务上对其进行精细化修改。
基于 Generalized Signature Method
的深度学习因子
GSM在时序特征提取任务上具有优异的表现,尤其是在高频序列中。所以我们希望应用GSM从高频分钟线序列与日频序列中提取信息,将其融合为选股因子。在GSM的设定上我们综合考虑[2]中的先验结果,并希望控制生成特征的数量。在增强函数上我们选择了时间增强与基点增强,同时为了降维分别选择了二维元素投影与Multi-headed steam-preserving网络这两种不同的增强方式进行对比;在窗口设定上我们选择了简单的设定,全局窗口;在特征提取方面,选择截断阶数为5的Log-signature,主要目的是在保证良好性能的基础上限制生成特征数量;在计算的过程中不进行尺度放缩。
第一种GSM设定,在序列输入后进行二维元素投影得到序列变量的两两不同组合,再进行时间增强与基点增强移除不变性,计算每组序列对应的Log-signature后将其合并。
第二种GSM设定,在序列输入后使用Multi-headed stream-preserving网络将其映射为多个低维序列,这里简便起见,只从变量维数的角度考虑,使用多个MLP将高维序列映射到低维。其余与第一种设定相同。
这样设定下GSM得到的特征是截面的,其融合了多维时间序列的信息。深度学习模型我们参考[13]中的StockMixer设计了GSM-Alpha模型,其实现了时间序列信息提取、指标间的混合以及股票间信息的混合,其中GSM实现了对高频序列的高效处理,是整个模型的突出点。
假设我们按交易日期划分batch,即某个交易日的所有股票序列数据同属一个batch,对于其中的每个样本序列,首先将其输入到GSM & Indicator mixing模块,GSM将样本序列转化为对应的Log-signature特征,然后经过线性层降低到一个合适的特征维度,再经过一个MLP对特征进行混合重构,最终得到的输出为降维后的Log-signature特征与混合重构后的特征之和,实现残差连接。需要提到的一点是,计算均可以向量化进行,并且可以通过GPU加速。
在经过时序特征提取与指标混合之后,特征被输入到了Stock mixing模块,这个模块目的是利用与该股票在某种意义上类似的其他股票特征,对该股票自身的特征进行混合。这样使得模型不仅仅考虑了股票自身的时序信息,也考虑了股票间的联动效应。模块的工作原理如下:首先,应用多头自注意力机制(Multi-head self-attention)将batch中的各个股票特征进行重构,重构后的新特征实际上不同程度地融合了其余股票信息,标准化之后与重构前特征相加,即进行残差连接。最后,使用一个线性层将经过时序特征提取以及指标混合和股票混合后的特征转化为1维输出。
事实上,由于在股票间信息混合时无法事先确定每次训练或推理输入的股票数,所以无法使用确定性尺寸的MLP,这里使用的注意力机制,可以适应可变股票数量的情形。另外,这里也可以使用图神经网络(Graph neural network,GNN),例如[14]中的GAT,其可以利用基本面信息预设股票间的关联,通过边与结点的信息传导,可以更有效地挖掘关联信息,实现股票间特征的混合。
在数据输入与处理方面,我们考虑了分钟级交易数据与日频交易数据。对于分钟级数据,我们选择5分钟级最高价、开盘价、最低价、收盘价以及成交量作为原始特征,每个股票向过去回溯窗口期为20天的数据流作为样本。对缺失值进行填充,对成交量序列做对数处理,价格序列统一除以样本中的最后一个收盘价,最后进行时序zscore标准化。日频数据考虑60天的最高价、开盘价、最低价、收盘价以及成交量序列,处理方式与分钟级一样。标签选择行业市值中性化以及截面标准化后的未来20日收益率。
从2018年开始逐年滚动训练模型,训练模型时向过去回溯4年,前三年剔除末月为训练集,后一年剔除末月为验证集。设置早停轮数为30,最大迭代轮数为100。
我们应用两种数据进行训练,第一组训练的数据集为分钟级交易数据,第二组为分钟级交易数据与日频数据,由于两种数据的性质不同,故分别输入进不同的GSM & Indicator mixing模块,然后将得到的两组特征按股票对应拼接即可,再输入到后续Stock mixing模块。
对于仅使用分钟级信息生成的2018年1月至2024年5月的因子值,做去极值、标准化以及行业市值中性化处理后在全市场范围内进行五分组月频回测,回测时等权配置,基准选择为全A等权组合。下表展示了在两种不同的增强方式下,得到因子的表现。
二维元素投影相比于可学习的序列转换降维方法表现更优,这与[2]中的实验结果一致。另外我们发现,可学习的增强方法训练成本更高,训练过程中序列转化方式的不断调整给特征提取过程增加了不确定性,这使得模型的训练更加困难。二维元素投影方法可解释性更强,同样起到了降维的效果,后续的模型中均采用这种降维方法。
为了考察股票间信息对模型的贡献,我们删除了Stock mixing模块仅保留其余部分进行训练并回测。下表展示了原模型与去除Stock mixing模块的简化模型生成因子的表现。
Stock mixing模块在整个模型中起到了重要的作用,说明股票间的关联性可以提供增量信息。
另外,我们分别考虑了两种不同的信息输入对于模型的影响,即一组仅为分钟级交易数据输入,另一组为分钟级数据与日频数据的结合。下表展示了两种输入下训练模型得到因子的结果,分别为GSM-Alpha-min与GSM-Alpha,同时我们也测试了非中性化的情形。
高频信息输入的时间窗口较短,仅为20天,主要描述短期内信息流对预期收益的影响;而日频信息输入时间窗口为60天,虽然精细度较差但其包含更长的历史信息,能够从相对全局的角度体现历史数据对预期收益的影响。结果表明,日频信息的确能够提供增量信息,将不同尺度的信息相结合可能有更优的结果。基于GSM强大的时序特征提取功能,未来可以尝试level 2级别的盘口数据以及逐笔数据的低频化并融入到模型当中。
另外我们比较了中性化前后的结果,中性化后因子的Rank IC有所下降,但整体的稳定性有很大程度的提升。下表为中性化前后因子与CNE5风险因子的相关性对比情况。
由于在训练时目标为中性化后的收益率,所以得到的因子值即使在未进行行业市值中性化时,与市值的相关性也处于相对低位。中性化后,因子偏向于低流动性与低波动风格,但整体相关系数不高。
下表为GSM-Alpha分年度的表现,多头均为因子排序前20%。
因子在全市场中分年度表现良好,每年提供稳定正超额,这里基准为全A等权组合。中性化后因子每年的多空稳定性均有提升。
最后测试了因子在不同股票池中的表现,同样中性化后五分组月频回测,基准为指数成分股等权组合。
测试结果可以看出,模型在相对小市值的股票池中有更好的表现,在沪深300股票池中仍具有一定的选股效果。
本节利用GSM-Alpha因子分别构建沪深300、中证500、中证1000、国证2000的指数增强组合,构建说明如下:
回测区间为2018年1月至2024年5月,构建月频调仓策略,以次日vwap价格成交,选股范围为全市场不含北交所,剔除ST/*ST股票以及当日停牌、涨跌停的股票。优化目标为指标最大化,个股权重上限约束为2%,年化跟踪误差约束为5%,成分股权重占比不低于80%,行业偏离限制正负2%,风格偏离限制在0.3倍标准差以内。交易费用设定为双边千三。
下表为各指数增强策略表现:
基于GSM-Alpha的指数增强策略表现良好,超额持续稳定且回撤较小,策略在控制组合风险暴露的基础上取得了优异的表现。
Generalized Signature Method(GSM)是一种对多变量时间序列特征提取的一般化方法。其架构主要包含四个部分:数据增强、窗口设定、特征提取、尺度放缩。其中数据增强主要有三种作用,分别是敏感性引入、降维以及新信息引入,不同的增强方式实现不同的功能,数据增强可以使得算法更高效地提取序列信息,降维方法在变量维数较高的场景中效果明显。窗口设定主要是对序列的划分,使得算法可以从全局、局部、增量信息、不同尺度与层次等多个方面提取子序列信息。特征提取主要包括Signature与Log-signature这两种方法,其可以将时间序列信息转化为一个截面的特征集,信息转化效率高,另外唯一性与线性估计性等良好的性质使得Signature成为机器学习任务的重要特征集;Log-signature相对于Signature含有的信息相同但其特征数量更少。GSM可以作为深度学习架构中的一部分,可以实现梯度传导且支持GPU加速,大幅提升了对高频数据流的处理效率。尺度放缩是对序列或特征进行数量级的调整的一种方法,希望提升后续模型的训练效果。
GSM具有较强的灵活性,具有相当多的变体可以适应不同的任务,并且可以融入到任意的网络架构中处理多变量的高频序列。由于Signature与Log-signature特征数量与序列长度无关,这使其可以处理神经网络难以处理的高频、不规则采样等类型的序列。另外报告中介绍了一组综合最优的设定选择,来自于文献在26个数据集上的实验结果,可以作为GSM设定的先验知识。
GSM-Alpha将GSM与两个神经网络模块相结合,分别实现了时序特征提取、特征间的混合以及股票间关联信息的挖掘。整个架构的模块间实现残差链接。对比实验结果表明元素投影的降维方法效果好于可学习的方法,股票间信息混合提供了信息增益,日频序列信息与分钟级序列数据相结合得到的因子alpha提升明显。全市场2018年1月至2024年5月的月频回测结果显示GSM-Alpha原始因子Rank IC:13.33%,ICIR:1.62,五分组多空年化:40.56%,多空Sharpe ratio:3.72;中性化后GSM-Alpha因子Rank IC:12.19%,ICIR:2.26,五分组多空年化:38.74%,多空Sharpe ratio:5.51,中性化后因子稳定性明显提升。因子分年度表现持续稳定,且在各个股票池中都有不错的表现,更偏向相对小市值的股票池。另外,由于训练目标原因原始因子值与市值的相关性并不高,中性化后略偏向低波动与低流动性风格,但相关性并不高。
GSM-Alpha指数增强策略表现良好。在严格控制成分股占比、个股权重上限、跟踪误差、行业以及风格暴露下,基于GSM-Alpha因子的沪深300指数增强组合年化超额10.98%,超额Sharpe ratio:2.04;中证500指数增强组合年化超额14.99%,超额Sharpe ratio:2.39;中证1000指数增强组合年化超额17.72%,超额Sharpe ratio:2.45;国证2000指数增强组合年化超额20.76%,超额Sharpe ratio:2.98。费率均按双边千三计算。
最后,基于GSM的模型有很强的可扩展性,一方面未来可以在挖掘空间信息与关联信息的模型上更进一步,另一方面在数据输入上也可以加入多尺度多维度的信息,GSM在高频数据流与多尺度信息融合等场景中优势明显。
[1] Kidger, P. & Lyons, T. Signatory: differentiable computations of the signature and logsignature transforms, on both CPU and GPU in International Conference on Learning Representations https://github.com/patrick-kidger/signatory (2021).
[2] Morrill, J., Fermanian, A., Kidger, P. & Lyons, T. A Generalised Signature Method for Multivariate Time Series Feature Extraction 2021. arXiv: 2006.00873 [cs.LG].
[3] Ye, L. & Keogh, E. Time series shapelets: a new primitive for data mining. In Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining, pp. 947–956, 2009.
[4] Li, S. C.-X. & Marlin, B. M. A scalable end-to-end Gaussian process adapter for irregularly sampled time series classification. In Advances in Neural Information Processing Systems, pp. 1804–1812, 2016.
[5] Levin, D., Lyons, T. & Ni, H. Learning from the past, predicting the statistics for the future, learning an evolving system. arXiv:1309.0260, 2013.
[6] Hambly, B. M. & Lyons, T. J. Uniqueness for the signature of a path of bounded variation and the reduced path group. Annals of Mathematics, 171:109–167, 2010.
[7] Yang, W., Lyons, T., Ni, H., Schmid, C., Jin, L. & Chang, J. Developing the path signature methodology and its application to landmark-based human action recognition. arXiv:1707.03993, 2017.
[8] Lyons, T. & Oberhauser, H. Sketching the order of events. arXiv:1708.09708, 2017.
[9] Liao, S., Lyons, T., Yang, W. & Ni, H. Learning stochastic differential equations using RNN with logsignature features. arXiv:1908.08286, 2019.
[10] Bonnier, P., Kidger, P., Perez Arribas, I., Salvi, C. & Lyons, T. Deep Signature Transforms. In Advances in Neural Information Processing Systems, pp. 3099–3109, 2019.
[11] Chevyrev, I. & Kormilitzin, A. A primer on the signature method in machine learning. arXiv:1603.03788, 2016.
[12] Flint, G., Hambly, B. & Lyons, T. Discretely sampled signals and the rough Hoff process. Stochastic Processes and their Applications, 126:2593–2614, 2016.
[13] Fan, J. & Shen, Y. StockMixer: A Simple Yet Strong MLP-Based Architecture for Stock Price Forecasting. Proceedings of the AAAI Conference on Artificial Intelligence 38, 8389–8397, 2024.
[14] Veličković, P. et al. Graph Attention Networks 2018. arXiv: 1710.10903 [stat.ML].
分析基于历史数据与模型,存在模型失效风险,历史数据回测结果不代表未来表现。
完整正式报告请参见东北证券金融工程研究报告《GSM-Alpha:提取时序特征的统一框架——机器学习系列之五》--2024/06/03
首席分析师:王琦
执业证书编号:S0550521100001
联系方式:wangqi_5636@nesc.cn
研究助理:贾英
执业证书编号:S0550122060006
联系方式:jiaying@nesc.cn
王琦:帝国理工学院数学与金融荣誉硕士,南开大学统计学学士。2021年加入东北证券上海证券研究咨询分公司任金融工程首席分析师,研究方向为金融工程。曾任职于兴业财富资产管理有限公司,任FOF投资经理。
贾英:伦敦大学学院金融数学荣誉硕士,厦门大学数学与应用数学本科。2022年加入东北证券,研究方向为因子选股、机器学习,现任东北证券上海证券研究咨询分公司金融工程组研究助理。
张栋梁:复旦大学金融硕士,南京大学金融学本科。2022年加入东北证券,研究方向为因子选股,现任东北证券上海证券研究咨询分公司金融工程研究助理。
江雨航:加州大学洛杉矶分校金融工程硕士,南开大学理学/经济学学士。2023年加入东北证券,研究方向为量化固收策略,现任东北证券上海证券研究咨询分公司金融工程组研究人员。
田靖航:北京大学金融硕士,上海财经大学经济学学士。2023年加入东北证券,研究方向为基金研究,现任东北证券上海证券研究咨询分公司金融工程组研究人员。
刘昱亨:北京大学计算机硕士,北京航空航天大学工学学士。2023年加入东北证券,研究方向为机器学习与衍生品量化研究,现任东北证券上海证券研究咨询分公司金融工程组研究人员。