来自耶鲁大学的Bryan T. Kelly和芝加哥大学的修大成最新文章“ Financial Machine Learning”在SSRN上发布。作者对金融市场中最新的机器学习文献进行了梳理并提供了该领域研究中的经典范例。

这篇论文共有150页，本文整理了论文的第一个章节。

图片1.png

Susan Athey与诺奖老公的合著：经济学家应该学会的机器学习方法

芝加哥大学修大成教授最新JPE论文：Asset Pricing with Omitted Factors

第一章

引言：机器学习的金融应用案例

价格与预测

现代金融市场分析的核心是关于价格的定义（如以下公式所示），源自投资者的一般（跨期）最优条件。

图片2.png

换言之，资产的当前价格P_it反映了投资者在给定当下信息集I_t，对投资标的未来收益X_it+1的折现估计。这些估值根据投资者的偏好进行折现，而这种折现一般概括为随机折现因子M_it+1。也即，价格P_it是反映了投资者对资产未来收益现值的最佳估计或预测。

在分析中，为能同时分析基础价格范围相差很大的资产，通常用资产收益率进行分析，即：

图片3.png

其中R_it+1=X_it+1/P_it-R_ft，为资产的超额收益，R_ft=E[M_t+1/I_t]^-1为单期无风险利率，𝛽_it=Cov[M_t+1'R_it+1/I_t]/Var[M_t+1/I_t]是资产与随机折现因子的关联程度，而𝜆_t=Var[M_t+1/I_t]/E[M_t+1/I_t]是未来风险（随机折现因子）的价格。

从上面的分析可以得出，关于资产的研究问题可以针对价格P_it或收益率R_it的角度展开，但由于一些原因，文献通常选择针对收益率R_it。首先，资产价格往往是非平稳的，而收益率往往是平稳的。此外，资产价格之间还会存在由于某些因素而导致的规模差异（某些股票一股上千，而某些股票几元钱。），但收益率通常不受规模差异的影响，因此研究者无需对其进行调整。

更一般地说，通过收益来研究市场现象，减轻了一些研究人员的建模负担。E[R_i_t+1/I_t]描述了投资者对未来一段时间内资产价值增值的预测。如果研究者们可以结合显示数据为这种预测构建出一个经验模型，就可以更好地理解市场的功能，同时还可以衍生出一种工具来指导未来的投资策略。而现在，一种新的统计模型——机器学习，可以在这一金融预测问题中大展拳脚。

越来越大的信息集

在金融领域，至少有两个条件使得机器学习的应用成为可能：1.越来越大的信息集和2.函数形式的不确定。从上一节的收益率预测方程中可以看出，对资产价格的研究与信息集I_it有着密不可分的联系。金融经济学研究中的基础性问题就包括“市场参与者拥有哪些信息以及如何使用这些信息？”。体现在资产价格预测中则是由与未来资产收益X_it+1相关的可用信息以及投资者对这些收益的主观感受（折现M_t）所塑造的。而如果价格在世界的所有状态下表现相同，例如，如果未来现金流回报和收益都是完全随机且独立的，那么也就无所谓对信息的运用了。但是，即使是市场中最最普通的投资者，也需要涉猎或阅读最新的新闻或咨询，以便迅速地发现市场价格背后潜伏着的大量条件性信息。有几个原因导致了与金融相关的信息“膨胀”：

1. 价格相关信息的膨胀是由金融市场的面板性质造成的。任何给定资产的价格往往以潜在方式随时间维度变化（时序变化）。同时，在给定的时间点上，不同资产的价格又因为不同的特征而存在差异（截面变化）存在差异。这就导致一个成功的资产价格分析模型必须同时考虑共享的动态效应和资产的独特效应。

2. 此外，由于传统金融经济学的研究倾向于一次研究一个或几个重要变量，作者推测这可能留下了许多未被发现的证据。例如，文本类的信息内容最近才作为信息集中的一员被学者们考虑，所以这暗示这与价格相关的信息集极有可能存在更大的拓展空间。

函数形式的不确定

如果说资产价格是对未来结果的预测，那么实质上研究价格的统计工具就是一个预测模型。金融市场研究的传统计量经济学方法，首先会为预测模型指定一个函数形式，然后估计参数其，以了解信息集如何与实际观测市场价格相关联。但在文献中可供选择的众多经济模型中，我们应该选择哪一个呢?

其实，在第一节中的预测公式可以看出，预测函数的形式其实相当宽泛，足以包含各种各样的结构性经济假设。这种宽泛性的表述是合理的，因为哪些具体函数的结构形式是可行的还没有达成共识。鉴于传统模型在实证结果上的局限性，过去二十年中的大多数实证工作都选择放弃一定的模型假设，转而采用不太严格的“简化形式”框架。但是简化模型中统计结构有很多潜在的选择，能够容纳多种不同函数形式以及不同程度的非线性和交互性的灵活模型也就逐渐被研究者们所探索的。

核方法、带罚项的似然估计量、决策树、神经网络等机器学习工具。由各种非参数估计和大参数模型组成的机器学习方法被设计来逼近未知数据的真实生成函数。此外，机器学习可以将多个数据源集成到一个模型中。根据第1.2节的讨论，对价格和预期收益的有效建模需要在其中包含丰富的条件信息。有学者指出，“我们显然没有观察到经济运行所使用的所有信息，甚至我们的模型中都还仅仅探索了一小部分观察到的条件性信息”，“经济运行中内部投资者可获得的信息与在研究者或普通投资者可获得的信息之间存在明显的差异，而机器学习是一个工具包，可以帮助缩小这一差距。”

实际上，通过对信息集的扩充和模型灵活性的考虑，我们的模型就会朝着实际更进一步。同时，我们也必须认识到，投资者使用信息的方式是我们作为研究者无法明确知道的，因此无法穷尽在需要考虑的模型形式所以在研究中，考虑条件性信息时要谨慎，考虑函数形式时也要同样谨慎。

机器学习 vs. 传统计量经济学

那么机器学习与传统的计量经济学有何不同？从机器学习的特征入手，可以概括为三点：(i)各种用于预测的高维模型集合、(ii)用于模型选择和缓解过拟合的“正则化”方法，(iii)对模型参数进行优化的有效算法。

为了通过实际数据进行学习（估计模型参数以拟合数据），机器需要对它正在试图学习的东西进行具体的表示。我们定义的第(i)部分指出，机器学习给高度参数化且往往是非线性的函数表示带来了一种开放的思想。小模型对于复杂的金融市场来说是过度简化的，它们的简约性有相对精确的参数估计和易于解释的优点。而大型和复杂的模型更加灵活，但当它们在系统中过度拟合噪声时，也会更加敏感，泛化能力也会较弱（样本外预测较差）。当研究者认为更准确地描述真实世界现象的复杂性所带来的好处超过了潜在的过度拟合的成本时，他们就会转向大模型。

在直观层面上，机器学习是一种在分析者不确定其统计模型应该采取何种具体结构时进行统计分析的方法。从这个意义上讲，很多机器学习都可以看成是非参数(或半参数)建模，它的工作方式考虑了各种潜在的模型形式，并使用实际的预测结果指导选择哪种模型。

我们定义的第( ii )部分强调了机器学习从候选模型的“多样化集合”中选择一个优选模型(或模型的组合)。机器学习将模型选择放在了实证设计的核心位置。在众多模型中寻找最佳表现者(通常被称为模型的“调优”)的过程是所有机器学习方法的特点。而正则化则保证了这种“调优”不会过分到影响样本外性能的程度。

机器学习定义中的 ( iii )或许是它与传统统计学最明显的区别，但也可能是最没有经济意义的（模型优化更大程度上是一个纯粹的数学问题）。当数据集很大和/或模型参数化程度很高时，计算能力可能成为研究的障碍瓶颈。机器学习已经开发了多种优化算法来降低计算负载。例如，诸如逐步使用数据子集（神经网络的批方法）和在收敛之前就停止参数搜索等捷径通常会减少计算量（早停法）。

机器学习在金融中应用的挑战

虽然金融研究在许多方面非常适合机器学习方法，但某些方面也对机器学习提出了挑战。理解这些障碍对于发展金融机器学习是很重要的。

首先，尽管机器学习常常被视为一种"大数据"工具，但金融领域的许多基础性问题却被经济时间序列的“小数据”实际情况所困扰。例如，宏观金融领域的标准数据集仅限于几百个月度观测值。这种数据稀缺性在其他机器学习领域是不寻常的，在这些领域中，研究人员出于各种意图和目的，往往拥有无限的数据，或者是“生成”新数据的能力（在图片识别或文本分类问题中，数据集通常是百万、千万甚至是亿级别的）。而在金融时间序列研究中，只有通过真实世界中时间的推移才能产生新的数据。

第二，金融研究往往面临低信噪比问题。这一点在回报预测中最为明显，市场效率的力量一直在努力消除价格变动的可预测性。因此，预计价格变化主要来自未预期的信息（这从模型的角度来说是不可预测的噪声），也就导致对于金融研究者接收到的信号（观测到的价格或收益率）并非资产真实信号（真实的预期价格或收益率）。

第三，投资者学习与市场演化。这为机器学习预测模型创造了一个动态的目标。以前可靠的预测模式可能会被套利者迅速发现并且消除。另外，随着金融市场监管和技术的变化，经济的结构也在改变。结构不稳定性使金融成为一个特别复杂的学习领域，并加剧了小数据和低信噪比的挑战。

为了我们不走散，学说请你加星标

疯狂暗示↓↓↓↓↓↓↓↓↓↓↓

芝大修大成教授最新力作，机器学习必读！！

Susan Athey与诺奖老公的合著：经济学家应该学会的机器学习方法

芝加哥大学修大成教授最新JPE论文：Asset Pricing with Omitted Factors