因果机器学习基础 | 因果科学读书会

导语

过去几年得益于深度学习等模型的发展，机器学习领域获得了很大突破，并且越来越广地被用在社会的方方面面。但传统机器学习的表现往往对数据的分布有着很强的要求，很多时候仅在独立同分布的监督学习中获得了非常好的表现。

经典教材Elements of Causal Inference的第五与第八章，探讨了如何将因果科学和数据驱动的机器学习进行结合，通过对数据生成机制进行建模等方法，使得机器学习模型可以在半监督学习、协变量偏移、迁移学习等场景下，也能获得更加鲁棒稳定的表现。本文将介绍这两个章节的主要内容思路。

这两章同时也是因果科学系列读书会第二季的主要研读内容，6月20日（周日）上午的因果科学读书会将直播详细解读相关内容，详情见文末。

1. 经典机器学习的问题

目前机器学习领域的研究大多数是基于一个潜在的假设，即数据是基于独立同分布（Independent and identically distributed，IID），这是统计学习理论应用中普遍默认使用的强假设，但在实际应用中往往并不满足。当违背IID假设时，机器学习模型的效果往往很差，这也是当前很多理论和实践结果都未能解决的泛化问题。例如，模型投入使用之后得到的数据往往不能由人控制，可能会出现与训练数据很不一样的测试数据，存在训练数据与测试数据不同分布，因此引入了Out-of-Distribution (OOD）问题。

造成这种现象的一个原因是现在机器学习方法是基于观察数据进行的数据分析，由于观察数据存在的样本数量有限、数据中变量的虚假关系等问题，使得机器学习的预测效果缺乏鲁棒性。而引入因果关系已成为应对预测稳定性、样本有限和变量虚假关系等问题的有效办法。

2. 因果关系在机器学习的应用

机器学习的一个重要任务是研究影响因素变量X与预测对象变量Y之间的关系。更具体地来说，是研究影响因素变量X的边缘概率P(X)和给定影响因素变量的预测对象变量的条件概率P(Y|X)之间的依赖性。因果方向对某些机器学习问题是至关重要的，比如用于半监督学习和协变量偏移等具体任务上。

半监督学习。当存在其他多余未标签数据且与影响因素变量X服从独立同分布时，这种存在部分标签数据的机器学习就是半监督学习。从概率图形学的角度来看，影响因素和预测对象之间的依赖关系可以转化为由这些变量组成的因果图，因果图中的箭头方向决定了影响变量和预测对象之间的相互影响关系，如图1所示。

图：上面是将mRNA X信息转换成蛋白质链Y，下面是根据输入图片X判断字符类别Y

协变量偏移。当实际的影响因素变量的边缘概率从P(X)变化为P'(X)时，并不能由此推出条件概率P(Y|X)是如何进行变化的。因此，在没有其他更好选择的情况下，计算时仍然使用原先的边缘概率P(Y|X)，而不是变化后的概率P'(Y|X)，这种做法称为协变量偏移。然而，这只有在保证影响变量X是原因、响应变量Y是结果时才是合理的。

3. 基于观察数据的因果关系

与传统的统计方法不同的是，因果关系从根本上解决观察数据引入的建模问题。与其从被动的观察数据研究变量之间的关系，因果关系采用更积极主动的方式，从变量之间的因果关系来理解数据的生成机制，从根本上消除了被动数据中存在的虚假关联。

因此，当训练数据和测试数据来自于不同分布时，由于数据的产生机制具有不变性，能有效地解决模型结果的不稳定等问题。基于此，因果关系也可以延伸到其他应用问题上，如迁移学习、领域自适应或者不变性，用于发现不同领域的不变性和变化性。

因果科学读书会直播解读

6月20日（周日）上午10:00-12:00的因果科学读书会将拓展上述内容，研读Elements of Causal Inference第五章和第八章，介绍因果和机器学习这一方向的基础知识。探讨因果如何用于半监督学习、协变量偏移、半同胞回归和迁移学习等场景，以及独立机制等概念。欢迎感兴趣的朋友参与直播或加入读书会。

主讲人：刘昊，本科毕业于南京大学匡亚明学院，曾经在南京大学LAMDA实验室和杜克大学进行过科研，现为加州理工学院计算机专业博士三年级，研究兴趣包括因果机器学习、鲁棒学习、深度生成模型和可解释机器学习。

参与直播：

本次读书会主题将在集智俱乐部 B 站免费直播，扫码可预约
付费参加读书会可加入腾讯会议，可提问交流，加入群聊，获取回看地址，成为因果社区种子用户，与500余位因果科学社区的一线科研工作者沟通交流，共同推动因果科学社区的发展（点击文末阅读原文即可报名）
“集智俱乐部”视频号可预约直播：

直播文献：

[1] Peters, Jonas, Dominik Janzing, and Bernhard Schölkopf. Elements of causal inference: foundations and learning algorithms. The MIT Press, 2017.

[2] B. Scholkopf, D. Janzing, J. Peters, E. Sgouritsa, K. Zhang, and J. M. Mooij. On causal and anticausal learning. In Proceedings of the 29th International Conference on Machine Learning (ICML), pages 1255–1262, 2012.

[3] K. Zhang, B. Scholkopf, K. Muandet, and Z. Wang. Domain adaptation under target and conditional shift. In Proceedings of the 30th International Conference on Machine Learning (ICML), pages 819–827, 2013

[4] B. Scholkopf, D. W. Hogg, D. Wang, D. Foreman-Mackey, D. Janzing, C.-J.

Simon-Gabriel, and J. Peters. Removing systematic errors for exoplanet search via latent causes. In Proceedings of the 32nd International Conference on Machine Learning (ICML), pages 2218–2226, 2015.

[5] B. Scholkopf, D. W. Hogg, D. Wang, D. Foreman-Mackey, D. Janzing, C.-J. Simon-Gabriel, and J. Peters. Modeling confounding by half-sibling regression. Proceedings of the National Academy of Sciences, 113(27):7391–7398, 2016.

[6] M. Rojas-Carulla, B. Scholkopf, R. Turner, and J. Peters. Causal transfer in machine learning. ArXiv e-prints (1507.05333v3), 2016.

[7] Schlkopf B , Locatello F , Bauer S , et al. Towards Causal Representation Learning[J]. 2021.

[8] Judea Pearl.Causality. Cambridge university press, 20

[9] Schölkopf, Bernhard. "Causality for machine learning." arXiv preprint arXiv:1911.10500 (2019)

（直播文献可上下滑动查看）

关于因果科学读书会：

连接统计学、机器学习与自动推理的新兴交叉领域——因果科学读书会再起航

点击“阅读原文”，即可报名读书会