本期推荐一篇2024年5月发表在JFE上的论文《处理机器学习投资组合中的缺失值》。 在现代金融市场的分析中,处理缺失数据是一个普遍且棘手的问题。缺失数据的处理对于保证机器学习模型的预测精确性和可靠性尤为重要。本文探讨了在机器学习投资组合中如何有效处理缺失值的问题,尤其关注于股票回报的预测。
金融数据的不完整性常常由于各种外在因素如数据收集的局限性、技术故障或是市场的非连续运作时间所导致。在处理包含数百个变量的大型金融数据库时,简单地剔除包含缺失值的数据行会导致大量信息的丢失,可能会对模型的训练和最终预测产生负面影响。因此,开发和应用有效的数据插补方法对于构建高效的金融市场预测模型至关重要。
本研究提出并比较了多种数据插补技术,重点评估了它们在资产定价模型中的表现和适用性。研究中使用的主要技术包括横截面期望最大化(EM)插补法和横截面均值插补法。横截面期望最大化插补是一种基于概率模型的方法,通过迭代过程估算缺失数据的最可能值;而横截面均值插补则是一种更直观简单的方法,直接使用可观测数据的平均值来填补缺失值。此外,研究还探讨了如何利用时间序列信息来优化插补效果,尝试通过考虑数据的历史观测值来提高插补的准确性。
为了评估这些方法的有效性,研究构建了基于主成分回归(PCR)、神经网络和梯度提升机(GBM)的预测模型,这些模型都是目前金融量化分析中常用的高级机器学习技术。通过比较在不同插补技术下这些模型的表现,研究旨在揭示哪些插补方法更能提高模型在实际金融数据中的预测精度和稳定性。
研究结果表明,尽管横截面期望最大化插补法在理论上能提供更为准确的数据估计,但在实际应用中,简单的横截面均值插补法常常能达到类似的效果,特别是在数据缺失模式较为随机且数据间相关性不强的情况下。此外,研究发现,高级的神经网络模型和梯度提升机在处理插补后数据时表现出较好的适应性和预测能力。
本研究的发现不仅有助于金融实践者在面对大规模且复杂的金融数据时作出更有效的数据处理决策,也为金融领域的数据科学研究提供了新的视角和方法论支持。未来的研究可以进一步探索结合多种数据源和先进机器学习技术来优化金融模型的数据插补策略,以应对市场的快速变化和数据环境的不断复杂化。
论文原文:Andrew Y. Chen, Jack McCoy, Missing values handling for machine learning portfolios, Journal of Financial Economics, Volume 155, 2024, 103815, ISSN 0304-405X, https://doi.org/10.1016/j.jfineco.2024.103815.