点击上方“图灵人工智能”,选择“星标”公众号
您想知道的人工智能干货,第一时间送达
大型语言模型模仿人类的聊天,但科学家们对其推理能力存在分歧。
世界上最好的人工智能(AI)系统可以通过严格的考试,写出令人信服的人类论文,并且可以流利地聊天,以至于许多人发现它们的输出与人类的没有区别。他们不能做什么?解决简单的视觉逻辑难题。
在由屏幕上排列的一系列色彩鲜艳的块组成的测试中,大多数人都能发现连接图案。但根据研究人员今年 5 月1 日的一份报告,GPT-4(聊天机器人 ChatGPT 和搜索引擎 Bing 背后的人工智能系统的最先进版本)在一类模式中的谜题正确率仅为三分之一,在另一类模式中的正确率只有 3% 。
逻辑谜题背后的团队旨在为测试人工智能系统的功能提供更好的基准,并帮助解决有关 GPT-4 等大型语言模型 (LLM) 的难题。通过某种方式的测试,它们轻而易举地完成了曾经被认为具有里程碑意义的机器智能壮举。以另一种方式进行测试,它们似乎不那么令人印象深刻,表现出明显的盲点,并且无法推理抽象概念。
新墨西哥州圣达菲研究所的计算机科学家 Melanie Mitchell 说:“人工智能领域的人们正在努力解决如何评估这些系统的问题。”她的团队创建了逻辑难题(请参阅“击败机器的抽象思维测试”)。
一个击败机器的抽象思维测试
到目前为止,人工智能系统还无法在ConceptARC测试中达到人类水平的表现。这个逻辑谜题要求解题者在看到一个潜在抽象概念的多个演示之后,展示网格模式将如何变化。下面是基于相同底层概念的两个示例任务。你能解决它们吗?
在过去的两到三年里,LLM在跨多个任务的能力方面击败了以前的人工智能系统。它们的工作原理很简单,即根据所训练的数十亿在线句子中单词之间的统计相关性,在给定输入文本时生成合理的下一个单词。对于基于法学硕士构建的聊天机器人,还有一个额外的元素:人类培训师提供了广泛的反馈来调整机器人的响应方式。
引人注目的是这种基于大量人类语言存储的类似自动完成的算法所产生的广泛功能。其他人工智能系统可能在任何一项任务上击败法学硕士,但它们必须接受与特定问题相关的数据训练,并且不能从一项任务推广到另一项任务。
ChatGPT 是一个黑匣子:人工智能研究如何打破它
马萨诸塞州剑桥市哈佛大学的认知科学家托默·乌尔曼 (Tomer Ullman) 表示,从广义上讲,两个阵营的研究人员对法学硕士背后的情况持有相反的看法。他说,有些人将算法的成就归因于推理或理解的曙光。其他人(包括他自己和米切尔等研究人员)则要谨慎得多。
“这场辩论的各方都有非常聪明的人,”乌尔曼说。他说,分歧的原因是缺乏确凿的证据支持这两种观点。“没有盖革计数器,我们可以指着某物说‘嘟嘟嘟——是的,聪明’,”乌尔曼补充道。
讨论双方的研究人员表示,揭示人类和人工智能系统能力差异的逻辑谜题等测试是朝着正确方向迈出的一步。纽约大学认知计算科学家布伦登·莱克 (Brenden Lake) 表示,此类基准测试还可以帮助揭示当今机器学习系统中缺失的内容,并理清人类智能的组成部分。
关于如何最好地测试LLM以及这些测试所显示的内容的研究也具有实际意义。米切尔说,如果法学硕士要应用于现实世界的领域——从医学到法律——那么了解其能力的局限性就很重要。“我们必须了解它们能做什么以及它们在哪里失败,这样我们才能知道如何安全地使用它们。”
图灵测试死了吗?
最著名的机器智能测试长期以来一直是图灵测试,由英国数学家和计算机杰出人物艾伦·图灵于 1950 年提出,当时计算机还处于起步阶段。图灵提出了一种他称之为模仿游戏的评估2。在这个场景中,人类法官与隐藏的计算机和看不见的人进行简短的基于文本的对话。法官能否可靠地识别出哪台是计算机?图灵提出,这个问题相当于“机器能思考吗?”。
米切尔指出,图灵没有详细说明该场景的许多细节,因此没有确切的规则可供遵循。“这并不是要在机器上实际运行的字面测试——它更像是一个思想实验,”华盛顿州西雅图的谷歌软件工程师弗朗索瓦·乔莱(François Chollet)说。
但利用语言来检测机器是否具有思考能力的想法一直存在。几十年来,商人兼慈善家休·勒布纳资助了一年一度的图灵测试活动,称为“勒布纳奖”。人类法官与机器和人进行基于文本的对话,并试图猜测哪个是哪个。但计算机科学家 Rob Wortham 表示,这些年度聚会在 2019 年之后就停止了,因为勒布纳去世了,举办聚会的资金也用完了。他是英国人工智能与行为模拟研究学会的联席主任,该学会从 2014 年开始代表 Loebner 主办了这场竞赛。他表示,法学硕士现在很有可能在这样的竞赛中愚弄人类;而现在,LLM 们很有可能在这样的竞赛中愚弄人类。巧合的是,这些活动在法学硕士真正起飞前不久就结束了。
其他研究人员一致认为,GPT-4 和其他LLM现在可能会通过图灵测试的流行概念,因为它们可以愚弄很多人,至少在简短的对话中是这样。今年 5 月,以色列特拉维夫 AI21 实验室公司的研究人员报告称,超过 150 万人玩过基于图灵测试的在线游戏。玩家被分配聊天两分钟,要么与另一位玩家聊天,要么与研究人员提示其表现得像人一样的法学硕士机器人聊天。玩家正确识别机器人的概率只有 60%,研究人员指出这并不比机会3好多少。
ChatGPT 和生成人工智能对科学意味着什么
然而,熟悉LLM的研究人员仍然可能在这种游戏中获胜。Chollet 说,他发现通过利用系统的已知弱点,检测LLM很容易。“如果你让我处于这样的境地,你问我,‘我现在正在和一个LLM聊天吗?’ 我绝对可以告诉你,”乔莱说。
他说,关键是要让LLM走出它的舒适区。他建议向其呈现与LLM在其训练数据中经常看到的场景不同的场景。在许多情况下,LLM通过在训练数据中吐出最有可能与原始问题相关的单词来回答,而不是针对新场景给出正确答案。
然而,乔莱和其他人对使用以欺骗为中心的测试作为计算机科学的目标持怀疑态度。“这都是为了欺骗陪审团,”乔莱说。该测试激励聊天机器人开发人员让人工智能执行技巧,而不是开发有用或有趣的功能。
基准测试的危险
研究人员通常使用旨在评估特定能力(例如语言能力、常识推理和数学能力)性能的基准来评估人工智能系统,而不是图灵测试。团队也越来越多地转向为人们设计的学术和专业考试。
今年 3 月发布 GPT-4 时,其背后的公司——位于加利福尼亚州旧金山的 OpenAI——在一系列为机器设计的基准测试上测试了其性能,包括阅读理解、数学和编码。GPT-4 取得了大部分成绩,OpenAI 报告称4。该公司还为 GPT-4 设置了大约 30 项考试,包括:为美国高中生设计的各种特定科目的考试,称为先修课程(Advanced Placement);评估美国医生临床知识现状的考试;以及美国研究生选拔过程中使用的标准测试,称为 GRE。据 OpenAI 报道,在统一律师考试(美国许多州律师资格考试的一部分)中,GPT-4 的得分跻身前 10%(参见“人工智能系统性能 - 选定结果”)。
“许多语言模型在这些基准测试中都表现得非常好,”米切尔说。“但通常情况下,结论并不是它们在这些一般能力上超越了人类,而是基准是有限的。” 研究人员提到的一个挑战是,模型接受了如此多的文本训练,以至于他们可能已经在训练数据中看到了类似的问题,因此实际上可能正在寻找答案。这个问题被称为污染。
OpenAI 表示,它通过在问题和训练数据中查找相似的字符串来检查这一点。当它在删除相似字符串之前和之后测试LLM时,性能几乎没有差异,这表明成功不能主要归因于污染。然而,一些研究人员质疑这项测试是否足够严格。
Sam Bowman 是纽约大学的语言技术科学家,同时也在旧金山的人工智能公司 Anthropic 工作,他警告不要将 GPT-4 的考试成绩仅仅视为记忆的结果,从而否定 GPT-4 的能力。他说,污染“让说法变得有点复杂,但我认为它并没有真正改变大局”。
研究人员还指出,LLM在考试问题上的成功可能很脆弱,可能无法转化为在现实世界中获得正确示例所需的强大能力。米切尔说,稍微改变考试题目就有可能导致考试不及格。例如,她从ChatGPT 通过的工商管理硕士考试中提取了一个问题,并稍微改写了它。能够回答这个问题的人就能够回答改写后的版本。但 ChatGPT 没有通过。
在解释基准的含义时存在一个更深层次的问题。对于一个人来说,这些考试的高分可以可靠地表明一般智力——这是一个模糊的概念,但根据一个定义,它指的是在一系列任务中表现良好并适应不同环境的能力。也就是说,在考试中表现出色的人通常可以被认为在其他认知测试中也表现出色并且掌握了某些抽象概念。但对于LLM来说,情况并非如此,米切尔说。它们的工作方式与人类非常不同。“以人类推断的方式进行推断并不总是适用于人工智能系统,”她说。
这可能是因为LLM只能从语言中学习;由于没有体现在物质世界中,他们无法像人那样体验语言与物体、属性和情感的联系。“很明显,他们理解单词的方式与人类不同,”莱克说。在他看来,LLM目前证明“即使没有真正的理解,你也可以拥有非常流利的语言”。
另一方面,LLM还拥有人们所没有的能力,例如了解人类写过的几乎每个单词之间的联系的能力。米切尔说,这可能允许模型依靠语言或其他指标的怪癖来解决问题,而不必推广到更广泛的性能。
OpenAI 的研究员尼克·莱德 (Nick Ryder) 同意,一项测试的表现可能不会像获得相同分数的人那样具有普遍性。“我认为人们不应该通过对人类和大型语言模型的评估来得出任何等价性,”他说。OpenAI 分数“并不是对类人能力或类人推理的陈述。它旨在说明模型如何执行该任务。”
在人工智能领域,越大越好吗?
研究人员还对LLM进行了比传统机器基准测试和人工考试更广泛的探讨。3 月,华盛顿州雷德蒙德微软研究院的 Sébastien Bubeck 和他的同事通过预印本5引起了轰动。题为“通用人工智能的火花:GPT-4 的早期实验”。他们使用 GPT-4 的早期版本记录了一系列令人惊讶的功能,其中许多功能与语言没有直接或明显的联系。一个值得注意的壮举是它可以通过心理学家用来评估心理理论的测试,心理理论是人类的核心能力,可以让人们预测和推理他人的心理状态。他们写道:“鉴于 GPT-4 功能的广度和深度,我们相信它可以合理地被视为通用人工智能 (AGI) 系统的早期(但仍不完整)版本。”
尽管如此,正如布贝克向《自然》杂志澄清的那样,“GPT-4 肯定不会像人一样思考,而且对于它所展示的任何功能,它都会以自己的方式实现它”。
米切尔说,尽管该报告具有挑衅性,但它并没有系统地探讨法学硕士的能力。“这更像是人类学,”她说。乌尔曼说,要确信机器具有心智理论,他需要看到与类人心智理论相对应的潜在认知过程的证据,而不仅仅是机器可以输出与人相同的答案。
人工智能研究人员表示,为了找出LLM的优势和劣势,需要进行更广泛、更严格的审核。色彩缤纷的逻辑谜题可能是其中之一。
新鲜谜题
2019 年,在LLM出现之前,Chollet 在网上发布了他创建的一种新型人工智能系统逻辑测试,称为抽象与推理语料库 (ARC) 6。求解器会查看几个正方形网格变为另一种模式的视觉演示,并通过指示下一个网格将如何变换来表明他们已经掌握了变化的基本规则。“它应该测试你适应以前从未见过的事物的能力,”乔莱说,他认为这是智力的本质。
Lake 表示,ARC 抓住了“人类智能的标志”:从日常知识中进行抽象,并将其应用于以前未见过的问题的能力。
Chollet 在 2020 年组织了一场 ARC 机器人竞赛,当时法学硕士还没有获得很大的关注。获胜的机器人是一个人工智能系统,经过专门训练来解决类似 ARC 的任务,但与LLM不同,它不具备通用功能;它只答对了 21% 的问题。相比之下,人们在 80% 的时间内正确解决 ARC 问题7。多个研究团队现已使用 ARC 来测试法学硕士的能力;没有一个能够接近人类的表现。
Mitchell 和她的同事制作了一套新的谜题——称为 ConceptARC——受到 ARC 的启发,但有两个关键方面不同1。ConceptARC 测试更容易:Mitchell 的团队希望确保基准测试不会错过机器功能的进步,即使进步很小。另一个区别是,团队选择了特定的概念来测试,然后为每个概念创建了一系列谜题,这些谜题是主题的变体。
例如,为了测试相同性的概念,一个谜题要求解题者将具有相同形状的对象保持在模式中;另一个用于保持对象沿同一轴对齐。这样做的目的是减少人工智能系统在不掌握概念的情况下通过测试的机会(参见“击败机器的抽象思维测试”)。
表现不佳意味着什么
研究人员将 ConceptARC 任务提供给 GPT-4 和 400 名在线招募的人员。人类在所有概念组上的平均得分为 91%(在某一概念组上得分为 97%);GPT-4 在一组中获得了 33%,而在其余所有组中获得了不到 30%。
“我们证明机器仍然无法达到人类的水平,”米切尔说。“令人惊讶的是,它能够解决一些问题,因为它从未接受过针对这些问题的训练,”她补充道。
该团队还测试了 Chollet 竞赛中的领先机器人,这些机器人不是像 LLM 那样的通用能力系统,而是被设计用来解决 ARC 等视觉难题。总体而言,他们的表现比 GPT-4 好,但表现比人类差,其中一个类别的最佳得分为 77%,但大多数类别的得分低于 60% 1。
ChatGPT:五个研究重点
然而,鲍曼表示,GPT-4 与 ConceptARC 的斗争并不能证明它缺乏抽象推理的潜在能力。他表示,ConceptARC 与 GPT-4 存在偏差——除其他外,因为它是一种视觉测试。“即使你认为这些模型非常擅长这种推理,我认为你也不会真正期望这个实验能够奏效,”他说。
测试方式的限制可能会让 GPT-4 变得更加困难。LLM 的公开版本只能接受文本作为输入,因此研究人员提供了代表图像的 GPT-4 数字数组。(例如,空白像素可能是 0,彩色方块可能是数字。)相比之下,人类参与者只是看到了图像。“我们正在将纯语言系统与人类进行比较,人类拥有高度发达的视觉系统,”米切尔说。
“所以这可能不是一个完全公平的比较。”
OpenAI 创建了 GPT-4 的“多模式”版本,可以接受图像作为输入。Mitchell 和她的团队正在等待该技术公开,以便他们可以在其上测试 ConceptARC,尽管她认为多模式 GPT-4 不会做得更好。“我不认为这些系统具有与人类相同的抽象概念和推理能力,”她说。
剑桥麻省理工学院的计算认知科学家 Sam Acquaviva 对此表示同意。“我会感到震惊,”他说。他指出,另一组研究人员已经在名为 1D-ARC 的基准测试上测试了 GPT-4,其中模式被限制在单行而不是网格中8。他说,这应该会消除一些不公平现象。Acquaviva 表示,尽管 GPT-4 的性能有所提高,但还不足以表明LLM可靠地掌握了基本规则并对其进行了推理。
推理论证
鲍曼指出了其他实验,这些实验综合起来表明法学硕士至少已经获得了推理抽象概念的基本能力。在一个例子中,哈佛大学的计算机科学家 Kenneth Li 和他的同事使用了棋盘游戏 Othello 的数字版本,其中两名玩家通过将黑白棋子放置在 8 × 8 网格上来进行比赛。他们的目的是检查LLM是否依赖记忆的语言表面统计数据来生成文本,或者他们是否可能像人们一样构建世界的内部表征。
当他们通过向 LLM 提供玩家的动作列表来训练 LLM 时,它变得非常擅长为下一步的合法动作提供准确的建议。研究人员认为,他们有证据表明LLM正在跟踪棋盘的状态,并且它正在使用这种表示来建议行动,而不仅仅是提出文字建议9。
鲍曼承认,LLM的推理能力总体上是“参差不齐”的,且比人类的推理能力更有限——但他说,它们确实存在,而且似乎随着模型大小的增加而提高,这向他表明,未来的LLM会更好。“这些系统绝对没有我们想要的那么可靠或通用,并且可能在某些特定的抽象推理技能上他们仍然完全失败,”他说。“但我认为基本能力是有的。”
鲍曼、米切尔和其他人一致认为,测试LLM抽象推理能力和其他智力指标的最佳方法仍然是一个悬而未决的问题。加利福尼亚州帕洛阿尔托斯坦福大学的认知科学家迈克尔·弗兰克(Michael Frank)并不期望出现单一的、包罗万象的测试来取代图灵测试。“没有卢比孔河,没有一条线,”他说。相反,他认为研究人员需要进行大量测试来量化各种系统的优点和缺点。“这些代理很棒,但它们在很多方面都有缺陷,系统地探索它们绝对是至关重要的,”他说。
沃瑟姆向任何试图理解人工智能系统的人提供建议——避免他所说的拟人化诅咒。“我们将任何看似表现出智力的东西拟人化,”他说。
“这是一个诅咒,因为除了使用人体模型之外,我们无法想到以任何方式展示目标导向行为的东西,”他说。“我们想象它这样做的原因是因为它在幕后和我们一样思考。”
自然 619 , 686-689 (2023)
doi:https://doi.org/10.1038/d41586-023-02361-7
转自科技时代千高原,版权属于原作者,仅用于学术分享
文章精选:
图灵是如何设计出图灵机的,背后的故事和对我们的启发是什么,估计99%的人不知
“图灵奖”获得者理查德·汉明:怎样做成大事?
图灵奖得主Geoffrey Hinton:我的五十年深度学习生涯与研究心法
图灵奖得主杨立昆最新访谈:AI威胁论是蒙昧主义,控制欲只有人才有
图灵奖得主Yann LeCun:从机器学习到自主智能
图灵奖获得者约翰·霍普克罗夫特:中国大学的未来使命与实现路径
图灵奖得主LeCun:ChatGPT局限巨大,自回归模型寿命不超5年
图灵奖得主Jeffrey Ullman :我是如何入坑计算机科学的?
图灵奖得主、AI教父Hinton:放弃永生的凡人计算
图灵奖巨佬Dijkstra 解惑,为什么把 0 作为第一个元素下标,而不是直观的 1?