我们对机器学习的研究就像是盲人摸象。由于神经网络作为一个复杂系统实在是太过于复杂,我们所做的种种尝试就像是从不同角度触摸这只“大象”的局部,希望探知全貌而不能。是否存在一个 AI 的“大统一理论”,可以用一种自洽的方式刻画整头大象?
关键词:机器学习,统计物理,物理启发的机器学习,可解释人工智能
物理学家对世界总是有着独到的视角和洞见。一方面热衷于追求理论的普适性和统一性,另一方面又非常看重基于理论的实验对现实描述的准确性。从古至今,无论是牛顿运动方程还是爱因斯坦相对论,都体现了物理学始终在追寻世界的普适真理。本文主要陈述了当前机器学习理论的先创,以及从物理学家的视角,一个好的机器学习理论应该是什么样。关于什么是理论,百科上给出的解释包含两个关键点。首先是解释能力,即理论是从现实中抽象出来用于解释现实;其次更重要的是泛化性和预测性,也就是说理论还需要可以解释那些独立于我们所抽象的对象之外的一些现象。那么,我们为什么需要理论?如果没有理论,我们有的只是对世界忠实的记录和观察数据,但这样的观察数据几乎是无限的。而我们能从现实观测数据中抽象出牛顿力学,仅仅使用几个字符就实现对新现象的预测,重新“解码”出世界的信息。所以,理论能够帮助我们用更少的成本存储更多信息。为什么理论的抽象是可行的,或者说这个世界一定可以被我们用理论抽象呢?虽然这里的讨论和描述有点偏哲学,但想要强调的是,理论的存在其实不是理所应当的事情。这里主要有两个原因。一是数学语言可以强大到用于描述我们这个世界;二是“人择原理”告诉我们,存在即合理。那些不能用理论抽象的世界本身就可能不稳定或者太简单或者不适宜生存,而我们存在的宇宙之所以能被观测到,正是因为这个宇宙存在规律,所以我们有可能探索出世界运行的法则。而我们接下去所有的讨论,也都建立在“我们这个世界可以被一个好的理论描述”这一前提之下。接下来我们想要探讨,什么是好的理论?文献[1]指出,一个好的理论一方面要满足“理论”这一概念的基本要求,即实现对已有信息的压缩和泛化,另一方面则需要预测出与传统理论截然不同的新结论,并得到验证。换句话说,好的理论能给我们带来非常大的信息增益,在新的事实上不仅带来好的预言,还要足够的力量颠覆旧理论。图2. 这篇发表于Science的论文探讨了好的理论应该是什么样?从这个角度看,截止到现在的机器学习理论,其实仅仅做到了第一点,实现对已有现象的总结和信息压缩,但还远没有达到能够指导新实验设计的步骤。当前机器学习研究的现状,是实验远远走在理论前面,工程师和科学家会根据自己的经验设计神经网络架构,理论则在后面缓慢前进。原因就在于,神经网络作为一个复杂系统实在是太过于复杂。我们目前所做的尝试都像是在“盲人摸象”,只能管中窥豹,无法探知全貌。接下来,我们就从经典AI理论开始介绍机器学习理论的现状。这里主要介绍两种传统的机器学习理论,基于计算学习理论的 PAC(probably approximately Correct)学习理论和基于统计物理的分析(staticstical mechanics)。图4. Foundations of Machine Learning,这本书详细介绍了PAC学习理论和其他机器学习的基本理论。PAC 学习理论
是一个机器学习的数学分析框架,1984年由 Leslie Valiant 提出。这个框架将学习任务看作是从一个潜在概率分布中学习一个目标函数。我们希望通过观察一些训练样本来推断出这个目标函数。然而,由于训练数据只是概率分布中的有限样本,我们不能保证推断是完全正确的,所以最终会得到一个近似解,或者说一个边界解。基于统计物理的分析则提供了一种从宏观角度理解学习现象的方法,它关注的是学习系统的全局性质和行为。这种方法从统计物理的思路出发,将机器学习训练过程中我们关心的指标,比如泛化误差等看成是系统的典型统计量,主要做的事情,是对这些潜在的目标函数(或者说假设)计算统计量,然后关注这些统计量分布的期望值如何,也就是说,这里关心的是最可能出现的结果。并且在一些热力学极限条件下,这些计算会变得很简单。图5. Statistical Mechanics of Learning,这本书从统计物理的角度介绍机器学习理论。下图展示了两种方法求解的可视化,图中红色和蓝色点分别代表分布在这一空间中的两类样本观测点,我们的目标是希望找到一个矩形划分这两类样本,使得对于一些未知的样本点也能划分的比较好。蓝色矩形是 ground truth。左图黄色的矩形是使用PAC理论找到的目标,圈出了划分的边界位置。右图是基于统计物理的分析找出的解,用浅蓝色矩形表示,可以看到这一理论会计算所有的可能性,并且最终用期望值来表示最后的结果。图6. 图中圆圈表示训练样本,蓝色矩形表示目标概念,橙色矩形表示可能的猜想。左图是PAC理论的可视化,黄色是最终的解,找到了一个边界解。右图是基于统计物理的分析的可视化,浅蓝色表示解的分布区域,最终计算系综平均作为解。这两种理论框架都面临着挑战。例如,PAC学习理论的一些假设在实际应用中可能不成立,而基于统计物理的分析则需要对系统的细节有深入的理解。如何将这些理论应用到实际的学习系统中,以及如何用这些理论来解释和预测实验现象,也是当前的研究热点。此外,这两种经典理论都预设了一些假设,比如二者都假设1.我们是在一些已知的目标函数集中进行选择。但在深度学习中,这一假设依赖于神经网络的架构,也就是说这些理论都不能指导我们进行架构的设计;2.我们知道 ground truth 是什么。但实际情况更多是数据和算法的结构是不清楚的,我们对于 ground truth 是什么也不够清楚;3.我们已知该如何进行优化和选择目标。但是在深度学习中,基于梯度优化的方式是不可控的,我们往往也不清楚它为什么会往某个方向优化。如果把理论大致分成“登山式理论”和“铺路式理论”,前者指目标清晰,只需要想方设法爬到山顶,过程中间我们可以想办法增加假设使得能够尽快达到目标。过去10年中,理论学家为了理解一个概念或者算法,制定了很多很高的登山目标,但很多假设经不起推敲,使得很多结论也都南辕北辙,无法得到圈外人认可。而后者则是专注走脚下的路,致力于理解当前的问题,并不期待能够达到多远的目标。
从一个物理学家的视角,好的理论应该更像是铺路式理论,这里称之为“A physics-like theory”,表述不同,但含义基本上是相通的。这里所要强调的是,我们应该更加关注理论所带来的物理图景如何,而这恰恰也是历史上物理学家探索真理过程中贯穿始终的原则。那么,机器学习的物理图景是什么?前文也有提到,我们对机器学习的研究就像是盲人摸象,我们从各个角度切入,试图弄明白这个复杂系统到底如何运作,并且也得到了许多结论(如下图所示)。当然我们可以继续去从新的角度去摸这只“大象”的局部,尝试对它有新的理解;我们也可能试图从当前已有的结论中思考这个庞然大物的全貌究竟如何。我们如何尽可能地接近机器学习的物理图景呢?讲者给出了物理学家看待世界的方式,或许对于机器学习的理论研究也有帮助:0. 第一个原则是从现实实验和观测出发构建理论,而不是凭空做出假设;3. 更偏好直观图像(mental pictures)甚于严格的数学。也就是说当直观图像和数学严格性发生矛盾时,倾向于更接近物理现实的直观图像。以 grokking 这一现象为例。机器学习中的 grokking 现象是指,训练集的收敛往往快于测试集的收敛,也就是二者的收敛速度会有一个时间差。在这个时间差期间,算法更像是在过拟合的空间中运作,然后随着迭代次数增加才会向泛化性上优化,即测试集准确度升高,如图7所示[2]。文章[3]找出了这一现象的关键变量——神经网络的权重范数(weight norm),发现权重范数的变化刚好对应了这一现象:当训练准确度很高时,权重范数也很高,意味着此时在用蛮力执行任务,而当测试准确度高时,权重范数开始下降,模型泛化能力增强。图8. 左图是机器学习中的 grokking 现象。右图是发现 grokking 现象和 weight norm 有相关性进一步,文章还指出我们可以用动态的视角研究模型从过拟合到泛化的过程发生了什么。首先是发现了权重的衰减速度和测试集准确度的优化时间刚好是一个反比关系(图8左图),这很像是速度和时间的关系,说明神经网络的优化过程很可能存在和现实世界类似的物理图景。图8右图则是作者尝试给出的一个几何图景,认为在机器学习的权重空间可能存在一个超球面(hyper sphere,绿色区域),最佳的泛化能力就落在这个超球面上。超球面的内部意味着欠拟合,外部意味着过拟合。而 grokking 现象就像是在过拟合区域内的一个峡谷,模型会沿着这个峡谷缓慢向最优区间移动。图9. 用动态视角看待机器学习的优化过程。左图是权重衰减因子和测试集优化时间的关系。右图是文章[2]尝试给出的机器学习优化空间。综上所述,物理学家眼中的机器学习理论,需要具备理论的解释能力、泛化性和预测性。然而,目前的机器学习理论还未能完全指导新实验设计,这是因为神经网络作为复杂系统的复杂性使得理论分析面临重重挑战。好的机器学习理论应该更像是铺路式理论,注重理解当前问题,并关注物理图景的建立。探索科学启发的机器学习理论不仅能够深化我们对机器学习的理解,还可以为其未来发展提供新方向。通过将科学的观察和实验方法应用于机器学习领域,我们可以期待更加全面、准确和可解释的机器学习理论的涌现。这将推动我们从"盲人摸象"状态走向更加完整的物理图景,构建一个“AI大统一理论”,使机器学习不仅仅是一种工程应用,更成为一门深入理解和模拟智能的科学。[1]Platt J R. Strong Inference: Certain systematic methods of scientific thinking may produce much more rapid progress than others[J]. science, 1964, 146(3642): 347-353.[2] Grokking: Generalization Beyond Overfitting on Small Algorithmic Datasets” by Power et al. https://mathai-iclr.github.io/papers/papers/MATHAI_29_paper.pdf[3] “Omnigrok: Grokking Beyond Algorithmic Data” Liu et al.
转载内容仅代表作者观点
不代表中科院物理所立场
如需转载请联系原公众号
来源:集智俱乐部
编辑:十七