迈向深度学习的终结和AGI的开端

下一次AI的大突破，一直直觉或许灵感还会源于生物细胞。

AI 的神经元比生物神经元简单的多，不过改进的方向不一定是变得更复杂。有可能只是从其中一部分得到启发。

如同飞机模仿了鸟类的飞行，但并非直接复制一样。

关键在于对细胞的底层机制的理解，比如干细胞的再生能力，又比如神经元活动如何导致学习和记忆。

这些问题的破解，既能从根本上帮助治愈那些细胞功能异常引起的疾病，其中大部分目前基本无解；又能启迪新一代的智能系统。

我的前同事们在这些方向做了不少杰出的成果，未来有机会再拿一个诺奖。

后来虽然我离开了这个领域，但偶尔也会关注下新的进展。下面是最近看的一篇很有意思的文章。Enjoy

作者：Javier Ideami
编译：McGL

最近的神经科学研究成果，指引我们走向战胜对抗样本，并实现一种更具弹性、一致性和灵活性的人工智能形式。

对抗样本(Adversarial examples) 是当前深度学习研究的热点问题。数据中细微的、往往看不见的变化 可能会让我们的网络犯下可怕的错误。作为人类，我们似乎对这些感官输入的干扰的适应性/弹性(resilient)强得多(虽然也不是完全免疫)。

我们的深度学习系统中有一个特定的模式。它们取得了非凡的成就，但有时也很脆弱。就像暴风雨中坚硬的树木，它们看起来高大壮观，但随时可能毫无预警地裂开。为什么会发生这种情况，我们如何才能改善呢？

通过神经科学(neuroscience)领域的新研究，一些清晰的观点开始显现出来。在本文中，我们将对其进行探讨。

最近我看了一本新书，毫无疑问是令人愉悦的杰作。这是科学家兼企业家 Jeff Hawkins 的新作，名叫 《一千个大脑: 智力的新理论》(a Thousand Brains: a New Theory of Intelligence)，书中剖析了他的团队对新皮层(neocortex)所做的最新研究。新皮层是我们大脑的一部分，占大脑体积的 70% ，负责我们的高级智力。(另外 30% 被更古老、更原始的大脑部分所占据)。

在一段引人入胜的旅程中，Jeff Hawkins 带我们深入到我们智力的中心。他分享了:

大脑新皮层的回路(circuits) 非常复杂。在仅仅一平方毫米的范围内，我们就有大约十万个神经元(neurons)，几十亿个连接(突触/synapses) ，以及数公里长的轴突(axons)和树突(dendrites)。
新皮层周围看起来非常相似，区域之间的变化很小。
新皮层的所有部分似乎都与运动的产生和运动任务有关。在大脑新皮层的每一个部分，科学家们都发现了与旧大脑中和运动相关的区域相连接的细胞。

管理他们的一条回路

Vernon Mountcastle 是美国著名的神经生理学家，也是约翰·霍普金斯(Johns Hopkins)大学的神经科学名誉教授。他是大脑皮层(cortex)柱状(columnar)结构的发现者。他提出，通过进化，我们的新皮层基本上是通过反复复制同样的东西——同样的基本回路而变得更大。

当我在 Jeff 的书中读到 Mountcastle 的想法时，我想起了伟大的科学家 Robert Sapolsky 的一次有趣的演讲。在回答是什么把我们和黑猩猩区别开来的问题时(https://www.youtube.com/watch?v=AzDLkPFjev4)，Sapolsky 解释说，黑猩猩和人类之间基因表达的差异大约有一半与编码嗅觉感受器(olfactory receptors)的基因有关，其他的差异则与骨盆拱的大小、体毛的数量、免疫系统识别能力、生殖隔离的某些方面等有关; 这些差异解释了黑猩猩和人类之间几乎所有的基因差异。那么，与人类大脑相关的基因的差异在哪里呢？ Sapolsky 解释说，几乎没有这样的基因，只有少数几个基因与胎儿大脑发育过程中的细胞分裂周期有关。 基本上，我们的神经元数量是黑猩猩的3倍。 这种规模上的差异似乎是我们高等智力的关键。

这和 Mountcastle 的想法很吻合，即单个回路可以被多次复制(容量很重要，但是仅仅容量是否足够将今天的深度学习系统推向 AGI？让我们下面继续探索)。

我们大脑新皮层的所有部分 都基于相似的原则(principle)，基于相同的基本回路，这符合我们的大脑在不同情景下所表现出的灵活性。如果是容量问题，是否意味着 GPT-11 可以让我们更接近 AGI？

不幸的是，事情并没有那么简单。因为房间里有一头巨大的大象(elephant in the room)，Jeff 在他的书和理论中阐明了这一点。一个我们已经忽略太久的问题。

150000 列

在我们去拜访这个房间里的大象之前，让我们先聊一下背景。根据科学家的研究，我们的大脑新皮层中有大约150000个皮层柱/列。 Jeff 告诉我们，我们可以把这些列想象成细细的意大利面条。所以，想象一下150000根细细的意大利面一根挨着一根。

这些皮质列内部到底在干些什么？在过去的几年里，科学家们已经认识到大脑是一个预测机器(predictive machine)。它生成了一个世界的模型，并不断预测接下来会发生什么。

当我们的大脑的预测不正确时，我们意识到有些东西是不正确的，于是我们的大脑更新了它的世界模型。随着时间的推移，我们的世界模型变得更加丰富和复杂。

所以在某种程度上，我们确实生活在一个模拟(simulation)中。因为我们感知到的实际上是大脑构建的模型，而不是外面的“现实”。这解释了幻肢(phantom limbs)和其他类似的情况。

Jeff Hawkins 指出，我们的大脑通过关注它接收到的输入信息如何随着我们的移动(或者这些输入信息的移动)而变化来学习世界的模型。这就把我们带到了之前提到的房间里的大象。

房间里的大象

世界在不断地变化。所有东西都在移动/变动。随着事物的变动和变化，我们的大脑不断更新我们的世界模型(我们很快就会看到许许多多的模型) ，这是有道理的。

正如近年来注意力(attention)机制已经彻底改变了深度学习领域一样，注意力也是我们大脑如何学习这些模型的关键。

但是如果我们的大脑新皮层不断地做出大量的预测，并且调整它的模型和它所感知到的东西之间的任何偏差，为什么我们没有注意到所有这些预测，而是感知到一个连续的现实？让我们一步一步来说明。

通过他们的最新研究，Jeff 和他的团队得出了一些有趣的见解:

我们的每个皮层列(大约150000个)都是学习世界(包括物体，概念和任何你可以想象的东西)的模型。正如我们的旧大脑(old brain) 有 位置细胞(place cells) 和 网格细胞(grid cells) 来生成周围环境的模型一样，他们提出，新皮层也有相应的细胞，允许大脑制作物体、概念等的模型。皮层列使用了 Jeff 所说的参考框架/坐标系(reference frames)，参考坐标系就像是多维度的网格，帮助大脑组织任何类型的知识。
Jeff 告诉我们，思考是一种运动形式。当我们在这些参照坐标系中改变位置时，就会产生思考。所以你现在在想什么，你脑子里现在在想什么，取决于你的大脑皮层列在这些不同的参考坐标系中的位置。当你的大脑在这些结构中运转时，你的思想也在不断进化。

请注意，运动(movement) 的概念开始无处不在。运动和系统的动态本质是房间里的大象。我们很快就会讨论这与对抗样本以及当今深度学习的局限性之间的联系。

所以，这一切都是关于参考坐标系或者说地图，物理空间的地图，概念的地图，任何东西的地图。Jeff 告诉我们，旧大脑中的参考坐标系是学习不同环境的地图，同样，新大脑皮层中的参考坐标系是学习物体的地图(在他们所谓的“什么”列中) ，或者是物体周围的空间(在列的“哪里”) ，又或者是非感官列中概念的地图。

我很喜欢 Jeff 使用的比喻，为了成为任何领域的专家，我们需要找到一个好的方法来组织我们关于这个领域的知识，我们需要在内部创建一个伟大的参考框架或领域地图。想想那些深奥而复杂的参考坐标系，例如，达芬奇或爱因斯坦为了在各自的专业领域中出类拔萃而拥有的参考框架。

好的，我们的150000个皮质列中的每一个都在学习一个关于这个世界的预测模型，因为它关注的是输入信息随时间的变化。每个列都学习大量元素、物体、概念等的建模。

所以我们对任何事物(物体或概念)的知识，都是分布在成千上万的皮层列中的，分布在成千上万的互补模型中。这与 Jeff 理论的名字有关(一千个大脑)。

所有这些都与我们大脑的灵活性有关。我们的大脑皮层并不依赖于某一列。知识分布在数以千计的列中。因此，即使受伤损坏了一组列，大脑仍然能继续工作(在学术文献中有很多这方面的例子)。

接下来要考虑的问题是: 如果每次运动发生时，大脑都在创造新的预测，那么这些预测存储在哪里呢？

Jeff 和他的团队提出，发生在神经元(neuron)中不同树突(dendrites)上的刺突(spikes)是预测，其中树突是神经元中的分支，通过突触(synapses)接收信息。树突上的刺突将连接它们的细胞(cell)置于 Jeff 所谓的预测状态(predictive state)。因此，预测发生在神经元内部。这些预测改变了神经元的电特性，使其比其他情况下更快地被激活，但是这些预测并没有通过轴突(axon)传递给其他神经元，这就解释了为什么我们没有意识到其中的大部分。现在的问题是: 我们如何确定一个具体的预测？

以投票方式达成共识(Consensus by voting)

我们对现实的感知是投票过程的结果。不同的皮层列通过投票达成共识，这就产生了一个单一的感知，统一了来自系统不同部分的不同预测(这也可能与多种类型的感官输入有关)。

只有一部分细胞需要投票，这些细胞代表了比如我们感知的特定对象。他们如何投票呢？

我们大脑皮层列中的大部分连接都在新皮层的不同层上下方向运动。但也有例外。科学家们发现，有些细胞通过大脑新皮层左右发送轴突(输出连接)。Jeff 和他的团队提出，这些具有长距离连接的细胞负责投票。

当我们识别一个物体时，我们的大脑皮层列已经对我们所看到的物体达成了共识。我们每个列中的投票细胞(神经元)构成一个稳定的模式，代表了物体以及物体相对于我们的位置。

只要我们继续感知同一个物体，当我们继续与那个元素互动时，那些投票神经元的状态就不会改变。其他的神经元会随着我们的移动或者物体的移动而改变他们的状态，但是投票神经元会保持稳定。

这就是为什么我们的感知是稳定的，我们没有意识到与正在发生的移动预测相关的一系列活动。我们只是意识到正在投票的小组所达成的协商一致意见所产生的最终的稳定模式。

因此:

运动是我们大脑如何感知世界的关键。正是由于运动(我们自己的运动或者我们周围的世界的运动) ，我们的大脑才能丰富其对物体和概念的内部模型(运动不一定是物理的，它可以是虚拟的，等等)。
使用一个单一的原则来处理各种各样的输入，并为与我们交互的每个元素创建成千上万的预测和模型，使这些模型丰富多样。
通过表决达成的一致(consensus)机制意味着我们对世界的认识是稳定的，同时也是灵活和有弹性的。

现在是时候回到对抗样本(adversarial examples)和深度学习领域了。

如何战胜对抗样本

人类对于对抗样本也不是免疫的。感官输入的扰乱会使我们感到困惑，使我们误解事物。我们大多数人都看过各种各样的视觉错觉(optical illusions)图。然而，总的来说，我们的感知是一致的，并且相当有弹性，当然比我们在今天的深度学习系统中发现的更加一致，深度学习中看不见的变化可以彻底破坏我们的结果。

这种弹性(resiliency)、一致性(consistency)和灵活性(flexibility)背后的原因是什么? 不管它是什么，它可能包括以下几点:

由我们的皮层列创建的模型是基于运动和参考坐标系的建立。当我们四处移动或者世界在我们周围移动的时候，我们的大脑创造了成千上万个关于每个物体或概念的预测和模型。这提供了灵活性。我们不能把所有的鸡蛋放在一个篮子里。正如我们在深度学习中使用的集成(ensembling)一样，我们在这个问题上押注了成千上万个角度，而不仅仅是一个。
我们的看法是基于多模态(multimodality)和稳定的投票动态。针对特定对象(或概念等)创建的不同模型使用多种预测，这些预测通常与不同的感官模式(视觉、触觉、听觉、姿势等)相关联。在负责最终表示的细胞之间进行投票，可以产生适应变化的稳定模式。物体或环境的微小变化不会破坏稳定的投票模式，因为这种模式是基于成千上万个独立预测的组合，而这些预测又是基于很多不同的角度、视角以及通常不同的感官模式的组合。正如集成(ensembling) 经常在 Kaggle 比赛中获胜一样，它也是一种发生在大脑中的集成，使我们人类感知变得稳定、有弹性和灵活(当然是相对而言，与目前的深度学习系统相比尤其如此)。

因此，深度学习中对抗样本的“终结”，我所说的“终结”并不是指绝对的终结，只是达到一定弹性、一致性和灵活性的水平，类似于我们作为人类所拥有的水平，将有可能通过以下组合实现:

运动: 物理的或虚拟的。深度学习系统需要能够收集世界的不同的视觉和角度，随着他们移动或他们周围的世界移动，丰富他们的内部模型。机器人技术和人工智能必须进一步融合。除了机器人，运动也可以是虚拟的，所以这个原则超越了物理层面。
模型的集合: 我们必须超越单一的表示(representations)或模型。为了适应对抗样本和其他挑战，深度学习需要生成大量的预测和模型，并不断更新。然后，投票机制可以创建稳定的模式和表示，可以更好地抵御对抗性的干扰。
持续学习(Continuous learning): 外面的世界不是静止的。上述情况的一个结果是，学习需要持续不断。现在的深度学习系统太静态了。持续学习是一个活跃的研究领域，它的重要性只会越来越大。
参考坐标系: 我们可以从 Jeff Hawkins 在他的书和理论中描述的参考坐标系中找到很多关于如何建立我们的表示和模型的灵感。正如 Jeff 指出的那样，像 Geoffrey Hinton 这样的深度学习领导者已经为使深度学习模型更加灵活而努力了相当长的时间(如 Capsule 网络)。但是还有很长的路要走，最新的神经科学研究正在用新的线索强化这个方向，这一点越来越明显; 我们的大脑比我们的深度学习模型更加灵活和有弹性，现在我们开始明白为什么了。

研究检测对抗样本的新方法是一个有趣的领域，有许多学术活动。现在缺少的是对我们的深度学习架构和系统的重新思考，从当前的静态范式过渡到基于多模态、多模型、基于共识的预测系统的动态范式，这些系统具有弹性、一致性和灵活性。当我们做到这一点时，我们将能够隐藏或扰乱我们系统的某些部分，但仍然保持稳定的预测。

正如 Jeff 指出的那样，随着我们试图将人工智能系统应用于需要大量灵活性和弹性的场景，这将变得越来越重要。

Mountcastle 的想法，Sapolsky 的思想，以及我们对 GPT 架构的着迷，所有这些都表明了容量的重要性。数量很重要。拥有3倍多的神经元，或同一个基本回路的数千个副本，或数千亿个参数而不是10亿个，所有这些都很重要。

这对于深度学习领域的现状来说是个好消息。对于 GPT 系统这样的项目，我们正在发现并确认这个事实，这个容量很重要。

但是，我们也开始意识到，尽管容量很重要，但它不足以带我们去我们想去的地方。

如果你在一系列的播客和会议中关注最新的关于 GPT-3 系统的对话，你会听到类似的结论。GPT-3 令人印象非常深刻，但它也很脆弱，往往感觉像一种入侵式修改(hack)。这与人类大脑的弹性和灵活性无关。

容量很重要。但是运动也是。我们不能仅仅通过数量来逃避运动和变化。世界就像一场永不停息的风暴。

我们是一棵静止的树，越来越大，但是却一次又一次地断裂，因为它缺乏随着风暴移动的能力。

思考就是运动。通过参考坐标系运动。通过一致性机制统一成千上万的预测和模型。

运动即是前进的道路。

后记: Pedro Domingos 在他的《The Master Algorithm》 一书中写到了与深度学习相关的不同范式: 符号学(symbolists)、连接学(connectionists)、进化学(evolutionaries)、贝叶斯学(bayesians)和类比学(analogizers)。很明显，通往通用人工智能(AGI)的道路可以有很多不同的路线和方法组合。至于 Jeff 和他的团队的工作和理论，正如 Kenneth Stanley 教授所说，我正在追随一种有趣性的梯度(对于杰夫的工作来说这种梯度相当强大)。在我看来，Jeff 的理论和工作(以及他的才华横溢的团队)可以为我们打下非常有趣和有用的基石，让我们更接近 AGI (或者至少他们的研究可以指引我们走向那些基石)。所以，是的，我们可以通过很多不同的方式到达 AGI，但是到目前为止，我们所知道的唯一一个具有足够弹性和灵活性的智能系统是我们肩膀上的那个。因此，深入探索来自神经科学的最新研究可能会为我们指明通往 AGI 之路上有用的基石，这非常有意义。

原文： https://towardsdatascience.com/towards-the-end-of-deep-learning-and-the-beginning-of-agi-d214d222c4cb