因果推断与机器学习，终于有本书能讲明白啦！

随着大数据时代的来临，机器学习技术突飞猛进，并且在人类社会中扮演越来越重要的角色。

例如，你可能已经习惯了每天使用各种搜索引擎查找信息，或者在电商网站和视频网站的推荐系统，以及利用谷歌、百度等网站提供的机器翻译学习外语，这些应用都离不开机器学习模型的支持。

但机器学习模型，尤其是当下流行的深度学习模型面临着域外泛化、可解释性、公平性等挑战。

例如，利用深度学习模型做图像分类时可能会根据图片中的沙漠背景立刻判断图像中会出现骆驼，这是因为它不会意识到“沙漠背景”和“骆驼出现”之间只存在相关性。

也就是说，“沙漠背景”并不是“骆驼出现”的原因。

而认识到这一点对人类来说并不难。因此，为了实现通用人工智能，机器学习算法需要具备判断特征和标签间是否存在因果关系的能力。

另外，机器学习中对因果关系的研究也一直扮演着重要的角色。

例如，在流行病学中，孟德尔随机化揭示了基因对患病概率的影响，其本质是一种基于工具变量的因果推断方法。

在研究疫苗的有效率时，双盲实验扮演着不可替代的角色。这是因为双盲实验可以衡量疫苗对免疫力的因果效应。

而近几年出现了众多利用机器学习方法解决因果推断问题的研究。这是因为机器学习模型不仅可以有效地处理复杂的输入数据（如图像、文字和网络数据），还能够学习到原因和结果间复杂的非线性关系。

如今，因果机器学习的研究在学术界可谓百花齐放，从利用机器学习模型解决因果推断问题到将因果关系添加到机器学习模型中，都会涉及因果机器学习。

而在业界，无论是像FAANG 和BAT 这样的大公司、Zalando（总部位于德国柏林的大型网络电子商城，其主要产品是服装和鞋类）这样的中型公司，还是像Causalens（一家英国无代码因果AI产品开发商）这样的创业公司，因果机器学习都在解决业务问题中扮演着重要的角色。

这意味着业界对因果机器学习人才的需求也处于一个上升期。

例如，2022年春季的就业市场对这类人才的需求就是一个证明。

但是，目前高校开设的课程中很少有同时涉及因果推断和机器学习的。

这是因为因果推断被认为是统计学、经济学、流行病学的课程。而机器学习主要出现在计算机科学和数据科学的教学大纲中。

因此，《因果推断与机器学习》一书正好可以帮助到那些想要系统学习因果机器学习，并在将来从事相关工作的读者。

内容简介

为了帮助读者建立连接因果推断和机器学习这两个重要领域所需要的知识体系，本书对内容做了精心规划。

为了照顾到没有因果推断基础的读者，第1章解答了在学习因果推断之初读者可能面临的问题。例如，潜结果框架和结构因果模型两种基础理论框架到底有什么区别？因果推断的经典方法有哪些，它们分别适用于什么场景？

在此基础上，第2章介绍了更前沿的、利用机器学习模型来解决因果推断问题的具有代表性的方法，希望那些想要解决因果效应估测、政策评估、智能营销增益模型（Uplift Modeling）这些因果推断问题的读者从中有所收获。

第3、4章 中讨论的域外泛化、可解释性和公平性问题都在近几年受到学界和业界的大量关注。它们体现了基于相关性的机器学习模型的局限性。而基于因果性的因果机器学习方法对于克服这些局限性十分有效。这部分知识可以回答在机器学习领域工作的读者的一个问题：为什么因果性对于机器学习的研究和实践非常重要？

第5章介绍基于因果的推荐系统和学习排序方法，可以帮助对这些领域感兴趣的读者打下坚实的基础，从而在相关的科研和实践中做到游刃有余。

第6章是对全书主要内容的总结。

本书是基于作者在因果机器学习研究、教学和实践中积累的知识和经验而撰写的，旨在探索如何构建一个容易被读者接受的因果机器学习知识体系，为培养因果机器学习的跨学科人才做一份贡献。

精彩书评

在机器学习算法在各领域取得重大成果的今天，人工智能仍然面临着挑战。如今，大规模的机器学习模型在有海量数据的条件下可以学习到复杂的相关性。但它们仍然很难像人类一样，只用少量的数据就可以学习到数据中隐含的因果关系。

本书首先介绍因果推断的基础知识，然后介绍因果机器学习在域外泛化、可解释性、算法公平性、自然语言处理和推荐搜索纠偏等热门研究和应用领域中最具代表性的模型方法和应用场景，适合数据科学相关专业的高年级本科生、研究生阅读。

——张爱东美国弗吉尼亚大学教授，ACM/IEEE/AIMBE Fellow

让机器学习模型像人类一样，能够区分因果性和相关性是迈向通用人工智能的一个关键步骤。本书讲解了因果机器学习相关的基础知识、重要的方法和典型的应用，包括自然语言处理、机器学习可解释性、算法公平性、推荐搜索纠偏等。

本书对想要进入因果机器学习领域、数据科学相关专业的本科生、研究生和从业人员很有帮助。

——常毅吉林大学人工智能学院院长、教授，BCS/IET Fellow，ACM 杰出会员

人工智能和机器学习模型正在各行各业发挥着举足轻重的作用。传统机器学习往往专注于提升某个任务的预测准确能力，从而忽视了模型背后所能够揭示的更深层次的不同变量之间的因果联系，以致得到缺乏解释性的模型，更有可能做出不公平的决策，甚至在新的数据分布上表现不佳。让机器学习模型能够进行因果推断是从提高预测精度到揭示事物变化规律这一重要跃迁的关键能力。

本书深入浅出地介绍了因果机器学习的理论及其在各细分领域的应用，对相关领域的科研人员和工程师了解和研究因果机器学习会有很大帮助。

——洪亮劼美国领英公司工程总监，博士