Science最新：用机器学习建模人类的风险认知

导语

人类做决定的过程有时既复杂又看似武断ーー尽管如此，心理学家仍希望更好地理解这一过程，以便更好地预测人们在复杂情况下可能做出的各种决定。随着人机互动越来越频繁，预测人类如何进行风险决策，变的不仅是认知科学的目标，更具有实际意义和价值。6月发表于 Science 的一篇论文，通过大规模实验和机器学习，挖掘了人类决策理论。该研究使用神经网络学习海量风险决策数据，不仅重现了风险决策领域的已有研究，更在此基础上发现了一个预测更精确的风险决策模型。该研究通过对人类行为进行分析，可进行自动化建模，指出了复杂性科学和认知科学、社会科学结合的一种方向。

研究领域：机器学习，认知科学，风险决策

郭瑞东 | 作者

赵雨亭 | 审校

邓一雪 | 编辑

论文标题：
Using large-scale experiments and machine learning to discover theories of human decision-making
论文地址：
https://science.sciencemag.org/content/372/6547/1209

1. 用前景理论解释风险决策

盲盒再近几年变得越来越流行，为何人们会偏好不确定性，例如你面对30%的概率获得100元的商品的盲盒A，以及80%概率获得50元商品的盲盒B，为何有人愿意选择第一种，哪怕其预期收益更低。

诺贝尔经济学将得主Kahneman和Tversky在1979年提出了前景理论（Prospect theory），通过非线性折现，解释了为何人在面对“失”时变得风险追求，而面对“得”时却表现出风险规避。前景理论在经济建模、心理学、神经科学、商业分析等领域中影响深远，通过对消费者选择的建模，该理论可以帮助政策制定者找出能够提升个人及社会福祉的策略。

然而是在接下来的几十年里，随着几十种相互竞争的理论不断涌现出来，风险决策的模型间开始自相矛盾：每个理论都被证明是不完整的。提出新理论的研究人员通常会在诸如感知、注意力、记忆、情感等问题上做出复杂的假设，之后在小数据样本而非更大的数据集上重现。

之所以有这么多相互竞争的理论，是因为人类的决策行为是复杂的，而且每个理论通常只能从不断增长的假设清单中选择一些，解释部分场景下的风险决策现象。由于上述多样性和复杂性，对于最佳决策理论或模型的共识仍然很少，在其整体预测能力方面也没有什么收获。

但模型的好坏，还需要比较模型基于的数据和其对大样本决策数据的预测是否有明显差异，就如同机器学习的模型要在训练集和测试集上表现一致，才可确定没有发生过拟合。如此，心理学家提出的假设，可以作为优化问题中的约束条件，或者归纳偏差（inductive bias），看看增加后是否有助于模型的预测能力，决定要不要增加这一假设。

2. 机器学习如何对风险决策建模

该研究首先利用亚马逊的 Mechanical Turk 众包平台，收集了超过1万个场景下，如图1所示的、涉及概率的风险决策，这远远超过了以往研究中风险决策的数据。

图1. 风险决策的某个场景示例

每一个风险决策的场景，都可以通过一组风险和收益的向量描述；之后通过t-SNE降维，可以将所有1万个场景可视化。如图2所示，其中绿色代表历史中类似场景下的数据，红色代表之前最大的单一数据集，而黑点代表该研究用到的数据集。相比红点，黑点的数目是其30倍，且分布更均匀，更能反映风险决策本身的多样性。

图2. 一万个风险决策场景降维后的可视化

人类所有可能的风险认知函数，如图3所示，其中最简单的预期收益（Expect Value）——可以看成是预期效益（Expect Utility）的特例，而前景理论则是采用了非线性函数的预期收益。如此，可以将所有的风险认知的包含关系及通用程度用图3展示，其中的BEAST 代表 Best Estimate and Sampling Tools，是该研究找到的最好的预测模型。

图3. 风险认知模型的包含关系示意图

将认知模型的假设，转换为神经网络中的约束。如图4所示，例如基于预期收益的模型，每种效益函数，可以用一个一个的神经网络来表示，之后通过全连接层的组合使得最终的预测模型中，可由梯度下降优化的函数。

图4. 预期效益假设下的神经网络模型架构

3. 不同假设对应神经网络预测性能不同

如果一个神经网络模型能够在特定场景下预测出的选择，和实际中人类的预测有50%以上的概率重合，那么说明该模型能够预测该场景。对比训练轮次和均方误差，可以判断不同的心理学理论对应的模型，在1000个未知场景组成的测试集上的准确性。

图5. （左图）预期效益框架下，神经网络（蓝线）模型在测试数据集上随着训练轮数下降；（右图）神经网络学到的对收益和效用的对应函数

相比预期效益，前景理论指出人们看待不同的概率时，也会有非线性的认知，因此图5最右方的主观概率效应，并不像之前那样是直线，而由于引入了这个额外的假设，使得模型的预测更加精确，具体见图6。

图6. 前景理论的预测误差（左图）和效用和主观概率函数（右图）

之前的模型中，假设奖励的多少，和主观概率是相互独立的，不会因为收益是一万，人们就会将千分之一的概率，在主观上看成是百分之一，但是基于环境的模型放松了这一假设。其假设V(A) =∑_i∈Au(x_i, c₁)π(p_i, c₂) ，其中每个选项的效用取决于当前场景中的其它选项，而对概率的主观认知，取决于概率对应的收益。当进行效用估计时，如只依赖于当前场景，这样的模型称之为单次赌博模型（intra-gample），如果依赖于其它的场景，称为多次赌博模型（inter-gamble），如果不仅仅效用函数是场景相关的，对概率的主观估计也是，那么称之为Inter gamble prob/outcome 模型。

图7. 不同的基于神经网络的模型，以及传统认知科学模型对风险决策的预测误差对比

通过图7的对比，可以发现相比传统认知科学提出的模型，基于神经网络训练的模型，相比传统模型预测效果更好，这说明神经网络可以重现并超越已有的心理学研究，其次通过指出预测误差最低的模型，即更为复杂的Inter gamble prob/outcome 模型，说明了人类的风险认知本质上是极为复杂的，不能归因于简单的假设。虽然大部分场景可以看成是主观概率和主观效用的乘积，但也应当考虑不同场景下的相对比较，以及概率和收益之间的相互依赖。

4. 混合模型具有更好的预测能力

人们面对风险决策时，时常会设想大脑中有两个小人在相互斗嘴。这对应的是混合模型，即每个人有多组一一对应的主观概率和效用函数（策略），之后按照特定的场景，有偏好的随机选择某一组策略，随机选择使用那组进行判断。研究指出，使用混合模型，预测效果和使用基于场景的模型，其最终预测误差相近，说明混合模型能够包含基于场景模型中的信息，同时由于该模型的简单，其在训练初期的表现更佳。

图8. 混合模型的预测效果（左图）效用函数示意（右图）

图8中神经网络学到的混合模型中对应的效用函数和主观概率。值得注意的是，一个策略中习得效用函数显然是损失厌恶的，而对应的主观概率则如同前景理论预测的，对小概率的时间高估，而低估了大概率时的确定性，而另一个策略则是基本理性的。通过找出在什么场景下，人们会选择理性的策略：什么时候人们会如前景理论预测的，什么时候选择不理性的策略，研究者能够更好地理解人类风险决策时，哪些因素的影响最大。

究竟哪些因素决定了人们的策略选择，研究者发现最重要的因素是不同选项收益之间的差异度，最大收益和最小收益，以及选项中有多少是负面收益。即如果面对1元和一万元这样悬殊的差异，或者面对大多要失去的选项时，人们这时容易表现的不理性。图9展示了对所有场景可视化后，不同场景下选择不理性的主观概率函数和效用函数的可能性，图9-E中的蓝色点，则是不理性的选项占据主导的场景。

图9. 风险决策场景二维聚类后，不同选项对应的选择概率设色热图

5. 总结

通过训练深度学习模型，来预测人类在这些问题中的选择，训练好的模型可以非常高的准确率模拟人类的决策”，大大优于现有的模型。这并不意味着心理学家和行为经济学者的工作会被机器取代，我们仍然需要人类心智，来解释深度学习模型所代表的意义，将其转换为描述性的理论。传统模型只在特定数据集下表现得比机器学习得出的模型更佳，但在海量数据集下则表现欠佳，而大型数据集与机器学习相结合算法为揭示新的认知和行为现象提供了前所未有的巨大潜力。

在学习模仿人类决策的过程中，神经网络重现了许多已知的认知科学理论，例如前景理论。由于深度学习的模型灵活性高，使得研究者能够找到关于风险认知的全新洞见。因此，未来的认知科学，需要更多的使用机器学习去进行自动化建模，也需要实验室场景之外的更多真实数据集，例如盲盒的销售数据等。

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅：

推荐阅读

点击“阅读原文”，追踪复杂科学顶刊论文