继ChatGPT以近乎摧枯拉朽的气势席卷社会之后,3 月 14 日,OpenAI又发布了 GPT-4,宣称其可以更准确地解决复杂问题,是“最先进的人工智能系统”。那么,取得了现象级成功的由深度学习开发而来的此类智能聊天机器,有很大希望成为人类梦寐以求的通用人工智能吗?本文将从理论上分析ChatGPT的若干根本局限,及各界对其存在的几个普遍误读。此外,尽管本文针对的是ChatGPT,但结论适用于其他大语言模型。
ChatGPT问世以来,在引起全社会关注的同时也触发了很多争论。很多人被它似乎无所不知的内容储备和流畅的语言表达能力所震惊,但也有不少人因为它不时冒出来的 “一本正经的胡说八道” 而断定其不堪大用。关于对未来社会的影响,有人欢欣鼓舞地憧憬脑力劳动的效率提升,而另一些人则在忧心忡忡地预测就业机会的减少。一时间众说纷纭,蔚为大观。本文无意于讨论这些问题,而只准备集中分析一个话题:这种系统会成为所谓 “通用人工智能” 吗?
网上已经有对 ChatGPT的很多介绍材料,所以我这里只谈和本文的话题直接相关的。ChatGPT属于 “大语言模型” (Large Language Model,LLM),其直接目标是总结人类语言使用的统计规律。其构造过程主要包括两个阶段:首先,利用互联网等来源提供的语言材料训练一个巨型人工神经元网络,直接在字词、语句等水平上总结语言使用者的习惯。最简单的情况就是统计一个词出现在另一个词之后的频率,比如在 “这” 出现之后,有多少次下一个字是 “里” 。既然一个语言的词汇量是有限的,这种统计就完全可能进行,只是由于计算量极大,没有人会这样学习语言而已。以此为基础,可以进一步根据一个句子的开头计算其各种结尾的出现频率,以至于在一句话之后出现另一句话的可能性,如此等等。这和很多输入法根据已经打出的字猜测后面的字的做法基于相同的原理,只是海量的语言材料和超人的计算能力使得这种模型取得了任何人类都无法企及(甚至难以想象)的结果。这就直接解释了ChatGPT的内容广度和语言流畅性,因为它所说的话就是该语言的使用者们在相同的语境下最可能说的。在上述 “预训练” 的基础上,ChatGPT又经过了一个 “强化学习” 过程,在其中人类训练者为它提供了大量典型问题,并对其回复进行 “奖励” 或 “惩罚”,通过调整模型的参数使得其行为符合人类要求。这就解释了它为什么会在某些问题上提供背离统计数据的回复,尤其是当那些统计结果可能引起伦理或政治麻烦,或者不符合其作为聊天程序的 “身份” 的时候。尽管上述过程已经覆盖了非常大的范围,但总还有问题超出其外,就是说既没有来自语言材料的显著统计结论,也没在后续训练中出现过。在这种情况下,ChatGPT(或者说作为其基础的人工神经元网络技术)就会根据最类似的已知问答做出反应。这里 “类似” 的标准也是统计性的,比如说 “这” 的统计特征
(即前面提到的各种频率)和 “那” 会很接近,而和 “和” 就不会那么接近。这种处理方式当然有道理,但也正是各种 “一本正经的胡说八道” 的来源,因为如果类似程度不够高,这种替换结果的可信性就很成问题,而且这种 “统计上的类似” 和 “含义上的类似” 毕竟不完全是一回事。虽然上面的介绍包括了大量简化,从中已经可以看出ChatGPT的一些根本局限。由于训练材料不可能穷尽一个语言的所有用法,而基于统计相似性的解决方案并不可靠,其答案的可信性就不可能仅靠更多的训练来彻底解决。对于那些超出当前人类共识的问题,它就更是力所不逮了,因为这种技术对知识的有效拓展办法甚少,尽管它常常可以出色地总结和表达现有的人类知识。但既然这种模型的目标是 “再现一般人类的平均行为” ,所以对一个问题而言,即使其训练材料中确有真知灼见,也完全可能被陈词滥调所淹没。同理,所谓 “AI的偏见” 往往都是社会的偏见,不能怪在ChatGPT 的头上。另外要注意的是,所有所谓 “ChatGPT认为” 实际上都是 “人们认为”,而ChatGPT是没有 “个人观点” 可言的。很多网友热衷于询问ChatGPT对各种价值评价问题的看法,然后将其回复理解为 “反映了人工智能系统的世界观和价值观”,这对于大语言模型来说完全是一种误读。
众所周知, “人工智能” 一直没有一个公认的定义,但这绝不意味着随便怎么说都行。我在参考文献[1]里对此有详细讨论,在参考文献[2]中也有简略介绍,其主要结论是说 “人工智能” (AI)是对 “人类智能” 某一个方面(但不可能是所有方面)的再现。对于不同的研究者而言,这个方面会是下列选项之一:
- 结构,即AI应该基于一个人脑模型,从而实现 “类脑智能” ;
- 行为,即AI应该在外部表现上,尤其在言语行为上,做到与人一致;
- 能力,即AI应该能解决以前只有人类才能解决的实际问题;
- 功能,即AI应该具备人的各种认知功能,如学习、推理、感知、运动、通信等;
- 原则,即AI应该遵循体现在人类思维当中的理性原则。
我的结论是上述五个研发目标均有其理论和应用价值,但彼此并不相同,也不能相互包括,尽管因为历史原因常常都被称为 “人工智能”。在开始时,人工智能研究是以研发与人类智能具有一般可比性的计算机系统为目标的,这在图灵的文章(参考文献[3])和其它早期AI文献中几乎是不言而喻的,因此不必特别申明。但后来构建通用系统的努力屡屡受挫,导致大部分AI研究者转向专用的工具和问题解决方案,而视对通用智能系统的研究为死路,并将其斥之为 “白日梦” 甚至 “伪科学”。大约二十年前,一些对这个潮流持不同意见的AI研究者(包括我自己)开始 “抱团取暖”,并在需要一个新的 “旗号” 时选择了Artificial General Intelligence(AGI)。当时的一个主要考虑是 “g-factor” (“通用因素”)以及相应的 “general intelligence” (“通用智能”)在心理学关于 “智商” 的研究中已经是广为人知的概念,加上 “人工” 以后可以自然地引入到AI 中来。与其相比,其它的候选方案,如 “Real AI”(“真正的人工智能”)、“Strong AI”(“强人工智能”)、“Human-level AI”(“人类水平人工智能”)等等,都有比较大的缺陷。在我们确定了这个名称之后,于2007年出版了第一本AGI文集(参考文献[4]),并在随后的几年里开始了AGI年会和学报,从而标志着这个与主流AI分道扬镳的研究社群的建立。当这个概念被译为中文时,“通用人工智能” 显然比 “人工通用智能” 更符合中文的构词习惯和直观理解,而 “General Artificial Intelligence” 在英文里往往会被理解成 “人工智能概论/综述”,所以从没有被我们作为一个选项。在这里,中、英文的词序差异完全是语言差别而造成的,并非某些人所说的误译。随着深度学习的兴起,几家大公司开始用 “迈向AGI的重要一步” 来称呼他们的技术进展。由于他们的巨大影响力,AGI这个概念在公众的印象中和深度学习建立了密切关系。比如有些人以为既然深度学习可以用于很多领域解决不同的问题,这就已经是AGI了。这里的误解是混淆了 “通用技术” 和 “通用系统”。深度学习的确可以算是个通用技术,但用这个技术开发出来的计算机系统常常只能做一件事(下围棋、图片分类、语言翻译等等),因此都是专用系统。而通用系统是不能只会做一件事的,无论这件事做的有多好。那么问题来了:“通用” 除了作为 “专用” 的反面之外,还有其它的含义吗?在目前的讨论和研究中,对 “通用人工智能系统” 的理解主要有下面几种:
在上述4种 “通用系统” 中,我不知道有任何AGI研究者是以第1种为目标的,而且我们多次明确地拒绝了这种肤浅的解读[5, 6]。实际上,在科学技术领域,提到 “通用”,一定是相对的、有条件或范围的,例如 “通用图灵机”、“通用计算机”、(心理学中的)“通用智能” 等等。除去作为 “反面典型” 的1之外,上述2,3,4都可以算作是对 “通用系统” 的合理解读(至于能否实现则是另一个问题了)。这三种 “通用” 和前面五种 “人工智能” 有十五种可能的组合,尽管不是每种都有人在做研究,但起码说明了目前对 “通用人工智能” (AGI)理解的多样性。对于这样复杂的问题,早期的理解多样性是正常的,而这种分歧的解决只能通过长期研究的结果比较,而不是看谁的地位高或嗓门大。
有了前面的准备,我们可以讨论这个本文中心问题了。根据前面的分类可知,虽然ChatGPT的所指相对明确,AGI可远非如此。只有对 “通用” 取前面的解释2,而对 “人工智能” 取前面的解释2时,ChatGPT 才和这种AGI(“像人那样解决人能解决的所有问题”)直接相关。对于其它理解,ChatGPT或者基本无关,或者只有轻微贡献。以我自己的研究项目纳思(NARS, Non-Axiomatic Reasoning System)[7]为例,由于这个系统试图利用现有知识和资源合理地解决所有可感知和表达的问题,因此作为AGI对应于对 “通用” 取前面的解释4,而对 “人工智能”取前面的理解5。为了实现这个目标,纳思可能用像ChatGPT这样的大语言模型作为知识源和语言界面之一,但不会完全相信其结论,更不会靠它完成系统的核心推理和学习功能。由于本文的目的不是介绍我自己的工作,对纳思有兴趣的读者可以通过其它材料对其进行了解。我对ChatGPT的看法可以代表一些其他AGI研究者。如前面介绍的,目前实际上存在两个分离的 “AGI研究社区”,一个以大公司为代表,大致上是基于深度学习技术的,而另一个(前面介绍的)则是仍在探索很多其它非主流途径。后者形成于深度学习出现之前,而且至今没有把深度学习做为核心技术。这其中的原因远非本文可以覆盖,我这里只是希望各位读者知道,并非所有AGI研究者都认为深度学习(包括ChatGPT和其它人工神经元网络)是实现AGI的最佳途径,而且大概不能简单地说这些人都是出于固执或嫉妒,更不是出于无知,因为早在深度学习一炮而红的2012年的两三年前,在AGI会议上已经有关于深度学习的介绍与讨论了,只是大部分与会者认为这个技术远不足以解决AGI的核心问题。与此相反,很多深度学习的研究者只知道其它AGI方案尚未做出轰动性成果,而极少花时间了解其具体内容。
现在一定有读者要问,既然ChatGPT所代表的路线并非实现AGI的唯一可能,为什么只有它取得了当下这种现象级的成功?这就要说起在智能观上的 “行为标准”(即以 “行为上像人” 为目标)的特征了。我在参考文献[8]中讨论过 “图灵测试” 和 “伊莉莎效应”,并写道 “至今以通过图灵测试为目标的工作仍只占人工智能领域中很小的一部分。” 在七年以后,这句话显然不再符合当前的情况,但我仍认同那篇文章中的其它观点,而这里只补充一些更接近现状的思考。在前面列出的五类对人工智能的理解中,“行为” 和 “能力” 是最直观的,因此最容易被公众所接受。比如说,围棋程序AlphaGo就是 “能力” 派的代表之一,因为很多人会想,它连世界冠军都战胜了,还不够智能?而与此相比,一个AI系统是否在结构、功能和原则上像人,则即使是连专家们也不容易取得共同意见了。但这些直观的方案仍有各自的 “软肋”。就 “行为” 而言,一个明显的问题就是 “人类中心主义”。如我在参考文献[8]中指出的,“说话像人” 固然可以做为 “有智能” 的充分条件,但肯定不是必要条件(图灵在参考文献[3]看到了这一点,但没有展开讨论),否则根据这个定义,全宇宙除了人类就不可能有其它智能系统了。此外,说话是否的确 “像人” 也不是可以简单断定的。比如说有不少人开始被ChatGPT的本事所震惊,但聊了一阵子就觉得 “技止此耳” 了。在对聊天程序进行评价时,“伊莉莎效应” (“ELIZA effect”)是不能忽视的。伊莉莎是人工智能早期(上世纪六十年代)的一个著名的聊天程序。它之所以有名,不是因为在技术上有多么先进(伊莉莎靠预制模板和固定套路进行对话),而是因为其欺骗性,即很多人误以为这个程序有智能。从此以后,“伊莉莎效应” 就指人们为计算机的行为所迷惑,而认为其已经具有了某些它其实没有的能力。对ChatGPT某评论中所说的 “能表现得理解,就是理解” 正是这种效应的一个典型形式,而类似的判断还包括说ChatGPT “有情感”、 “能进行逻辑推理”,甚至 “有一定程度的自我意识“。从认知科学的角度来看,伊莉莎效应不难理解。当我们观察到一个新奇的现象时,总是试图用我们最熟悉的概念去解释和理解它,这和心理学家皮亚杰(Jean Piaget, 1896.8.9-1980.9.16)提出的 “同化” (assimilation)现象和逻辑学家皮尔士(Charles Sanders Peirce,1839.9.10-1914.4.19)提出的 “归因” (abduction)推理都有关系。一个典型的例子就是不少人在初次见到收音机时,会认为那个匣子里藏了个小人,因为这个解释比所谓 “无线电” 等天书般的解释好懂多了。由于人工智能的新功能往往是以前只有人类智能才能完成的,不了解内情的观察者难免会按人类行为来解释其工作原理和过程。伊莉莎效应在大语言模型中尤为显著,因为我们对他人是否具有各种认知功能(理解、推理、情感、意识等等)的判断常常是通过和这个人的对话完成的,因此如果一个系统能够很好地复现人类的对话能力,就会一揽子 “表现” 出很多其它认知功能,尽管它并不真的拥有这些功能。一定有读者会问 “你怎么知道它没有那些功能?”,但完整回答这个问题需要对上述认知功能的详细讨论,而那是远超本文所能做的。因此,我这里只简单分析 “ChatGPT能进行逻辑推理” 这个结论。ChatGPT的确在很多例子中表现出良好的逻辑推理能力,但在另一些例子中却明显地逻辑混乱,而二者的基本差别往往是训练数据的差异,即ChatGPT关于前一种例子有大量训练数据,但对后一种例子缺乏了解。根据公认的定义,逻辑推理是基于知识的结构或者说模式的,而与其内容无关。比如说从 “A是B” 和 “B是C” 中可以推出“A是C”,而这和A,B,C各自代表什么具体概念无关,更不用说系统关于它们各有多少数据了。因此,ChatGPT在 “推理” 中表现出的话题相关性就暴露了它并不真能进行逻辑推理,而只是通过模仿人类言语行为,往往会正确描述某些推理过程。这种分析同样适用于其它认知功能。我们甚至可以说 ChatGPT “不解决问题,但总结人们对问题的解决”。这在某种意义下的确可以说成是解决问题的一个 “通用” 方法,和 “不解决问题,但解决提出问题的人” 有异曲同工之妙。
我认为大语言模型的确有重大理论和应用价值,但和智能模型基本是两码事,因为二者的研究目标就不一样,而这又导致了许多其它差异。智能是不能仅仅通过对人类语言行为的模仿来实现的,而像PaLM-E和GPT-4那样将感知运动行为加进来也不足以解决核心问题。即使只谈对语言的处理,语言模型是把语言本身当作模拟对象,而智能模型则是把语言当作通信工具和知识来源。具体说来,大语言模型的首要目标是像一般人那样说话,而智能系统在使用语言时的首要目标是根据系统自身需要完成当前的通信任务,在这个前提之下才会考虑符合常人的语言使用习惯。由此造成的差别就是智能系统未必会用大多数人所选择的方式来完成一个句子,而是要表达自己的特定观点,即使这个观点尚未被别人表达过也是这样。我这篇文章所表达的观点显然和当前对ChatGPT的普遍评论不符,但有兴趣的读者不妨用本文的标题询问ChatGPT 或其它大语言模型,然后将其回复和本文比较一下,看看哪个更有资格被看成是由智能系统所生成的。[1] “On Defining Artificial Intelligence”, Pei Wang, Journal of Artificial General Intelligence, 10(2):1-37, 2019