尽管混合输入或输出集成提升了单颗粒度模型的选股能力,但由于依然使用传统GRU,当特征的颗粒度较细(如60分钟或30分钟)时,“失忆”问题就不可避免。因此,想要进一步提升因子有效性,增强循环神经网络(RNN)的记忆性很有必要。
Transformer类的网络结构是很多学术文献的首选,但通常需要较大的参数量才能获得理想的结果。而在周度或双周度收益预测的情景之下,用于训练的样本较为有限,因此该类模型未必适用。但我们可以借鉴Transformer类网络中的核心思想——注意力机制,即,对历史上各期隐含状态进行注意力加权,来改进传统GRU。
除了引入注意力机制外,我们还将GRU模型从单向改为双向。即,分别按顺序和逆序学习特征序列,并提取信息,进一步缓解早期重要信息的遗忘问题。最终的模型简记为双向AGRU。
下图展示了双向AGRU单颗粒模型的年化多头超额收益。显然,几乎在所有参数下,超额收益都得到了较为显著的提升。
进一步由下表可见,改为双向AGRU后,绝大部分单颗粒度模型的周度Rank IC、ICIR、超额收益都获得明显的改善,费后超额收益的平均提升幅度约为4%-5%。
以下图表为双向AGRU多颗粒度模型的收益表现。和传统的单向GRU相比,新模型的Rank IC、ICIR和多头超额收益都得到了全面而稳定的提升。
具体地,双向AGRU混合输入和输出集成模型的周均IC都超过0.12,Top10%和Top100组合的费前多头超额收益分别为33%和40%。考虑双边0.3%的交易成本后,两个组合的多头超额收益依然可以达到24%和30%。
以下两图展示的是双向AGRU多颗粒度模型的分年度费前多头超额收益,从中可见,2019-2022年,超额收益分布较为均匀,未出现明显的衰减态势。2023年,各模型Top10%和Top100组合的YTD超额收益约为18%和21%。
下图为Top10%组合2023年1至7月的费前累计超额收益,两次较大幅度的回撤分别发生在3月上旬至4月上旬和5月中旬至6月中旬。6月中旬至7月底,超额收益累积迅速,且较为平稳。
以上测试结果均以全市场为选股范围,但实际投资常常面临各种约束。因此,考察模型在不同选股空间中的表现,有着很强的现实意义。以下两图分别展示了因子的Rank IC和多头超额收益。从中可见,模型在中证800成分股内表现较为一般,周均Rank IC仅为0.08-0.09,多头超额收益约20%,都显著低于全市场的结果。
模型表现较好的选股域包括中证1000内、中证1800外、国证2000内和国证3000外,Rank IC都高于0.12,费前多头超额收益均超过30%。若进一步考虑成交活跃度,将选股范围限定在成交金额排名前20%的股票内,Rank IC和多头超额收益依然可以达到12%和30%。
如下图所示,截至2023年7月,模型在中证500、中证1000和国证2000成分股内的YTD超额收益分别为6%-7%、8%-9%和11%-12%,均显著低于历史平均水平。有趣的是,模型反而在沪深300成分股内获得了14%-16%的YTD超额收益,远高于历史平均水平。我们认为,这种选股有效性的此消彼长,或许反映了策略在不同选股域中的拥挤情况。