Py学习  »  机器学习算法

机器学习的革命与人类行为最后的处女地

不懂经 • 4 周前 • 40 次点击  

20世纪80年代,加拿大机器人专家汉斯·莫拉维克提出了一个看似矛盾的现象:人类轻而易举就能完成的动作,比如用手抓取物体,往往恰恰是计算机最难掌握的技能。

有位德高望重的教授曾说,只要机器人能够系鞋带,他就立即退休。现在的机器手已经可以系鞋带了,但不是所有的鞋带。

人类学习是出于好奇心,出于进化的本能和需要,机器人并不具备这样的欲望、压力、激励机制,它们能产生或发展出像人类一样的思考、感受和意识吗?
像ChatGPT这样的大语言模型,是用人类所有的知识成果训练出来的。如果机器人不会推理,那么,一个训练机器人的思路就是,让机器人学习完人类所有的动作。这个任务看上去很艰巨,不过“大力出奇迹”?
现在要预测人工智能驱动的机器人的未来,就像站在19世纪制帽工人的角度想象工业革命一样。
总有一天,人工智能将指引一只嗡嗡作响的金属手,也许指尖带有凝胶,向新生儿的手臂伸去抽血。很难说是该为那一天的到来欢呼还是恐惧。
《纽约客》刚刚发表了一篇长文,关于机器学习的发展简史,写得深入浅出,好读又好懂,普通人看完也会对机器人的发展有一个比较清晰的了解。分享给大家。全文甚长,收藏在看。

A Revolution in How Robots Learn

By James Somers

2023年秋天,我的儿子刚出生时,除了睡觉和吃饭,他大部分时间都在进行认知科学家所说的"动作学习"。他的手脚不停地摆动,眼睛机械般地转动、游移。一天晚上,就在他快要入睡时,他第一次露出了笑容。当我凝视着他,猜想着他的心思时,他的表情突然变得空白——随后快速变换:先是不悦,接着是惊讶,最后又露出喜悦。
这一切就像是在进行某种设备校准。这似乎正是动作学习的意义所在:通过随机运动,帮助大脑逐渐熟悉它所掌控的身体。
在我们的智力发展历程中,身体感知是最基础的能力。我们的大脑质量主要用于协调身体活动。有趣的是,神经科学家发现,即便是在处理抽象概念时——比如思考公司的组织结构——我们依然会调用与空间导航相同的神经机制。在大脑的初级运动皮层中,活动方式越复杂的身体部位,占用的控制区域就越大。其中,面部和嘴唇的控制区域特别大,手部的控制区域也同样可观。

人手堪称人体最灵活的器官,可以做出27种不同的动作,远超其他任何身体部位:手腕能够旋转,指关节可以独立活动,手指能够伸展或收缩。手部皮肤上的感应器分布极其密集,它们与沿脊髓延伸的神经网络紧密相连。"许多人以为脊柱只是传递信号的通道,"麻省理工学院生物机械学博士、机器人专家亚瑟·佩特龙说,"但实际上,它本身就是大脑的延伸。"他特别强调手部的神奇之处:"它的敏感度如此之高,简直就是一个视觉传感器。在完全黑暗中,仅凭触摸,你就能在脑海中勾勒出物体的形状。"

我清晰地记得儿子的手部能力开始觉醒的那一周。我们有个带摇铃的球形玩具,最初几周他对它毫无反应。突然有一天,他似乎不经意间碰到了它。第二天,他就学会了握住它。一周之内,他开始有意识地伸手去抓,两周后他已经能熟练地把玩具翻来覆去了。这种进步速度令人惊叹:短短两周,就能掌握如此精密的"设备",这是何等神奇!我的儿子似乎也为自己的进步感到新奇。他时常凝视自己的手掌,反复屈伸手指,仿佛在思索:这神奇的工具究竟还能做些什么?

20世纪80年代,加拿大机器人专家汉斯·莫拉维克提出了一个看似矛盾的现象:人类轻而易举就能完成的动作,比如用手抓取物体,往往恰恰是计算机最难掌握的技能。
即便在今天,当写作和编程等复杂任务已被人工智能攻克之际,这一现象仍然存在。以我的程序员工作为例,使用人工智能,我可以在几分钟内解决过去需要一整个下午才能完成的编程任务;然而,这个人工智能却无法操作我面前的键盘。它有"大脑"而无"躯体"。因此,最难被人工智能取代的可能恰恰是那些传统工种:水管工、木匠、育儿员、厨师。苹果公司联合创始人史蒂夫·沃兹尼亚克曾设计了一个至今无人通过的简单测试:让机器人进入一个陌生的家庭,并煮一杯咖啡。

直到几年前,机器人技术的进展仍远远落后于人工智能的飞速发展。在YouTube上,工业机器人公司波士顿动力的人形机器人能够翩翩起舞,或像跑酷运动员一样跨越障碍。但这些动作都是预先设定的——同样的机器人却无法完成煮咖啡这样的日常任务。要知道,仅仅是取一个咖啡滤纸,机器人就需要完成一系列复杂的动作:绕过厨房中岛,识别并找到橱柜,轻柔地打开橱柜门而不至于损坏铰链。甚至连分开咖啡滤纸这样看似简单的动作,在机器人领域都被视为一项难度惊人的挑战。这种技术困境一度让整个领域陷入绝望。

但随后,人工智能领域的突破开始为机器人技术带来曙光。托尼·赵最初在加州大学伯克利分校从事人工智能研究,后来转向机器人领域。
他回忆说,当他第一次接触到OpenAI在2020年推出的大型语言模型GPT-3时,立即意识到自己在见证历史性时刻。"我之前见过不少语言模型,但GPT-3是第一个给人以'生命力'的模型,"他说。与此同时,佩特龙正在OpenAI开发另一个突破性项目——一个能够灵巧操控魔方的机械手。到了2022年8月,谷歌研究人员展示的成果更是令人振奋:他们的由语言模型驱动的机器人,展现出了令人惊讶的常识理解能力。比如,当研究人员要求机器人准备点心和饮料时,它能自主在厨房找到香蕉和水瓶,并准确送达。

机器人领域的专家们越来越坚信,他们即将迎来一个堪比ChatGPT的突破性时刻。当赵运行他最新研发的作品时,立即让他联想到了GPT-3带来的震撼。"这是一种前所未见的体验,"他说。在顶级实验室里,那些曾经给人以生硬机械感的设备,如今的动作开始展现出智能的特质。可以说,人工智能终于获得了"手"的能力。
谷歌DeepMind机器人团队负责人卡罗莱娜·帕拉达告诉我:"过去两年,我们见证了技术进步曲线的急剧攀升。"她的团队在近期机器人技术的重大突破中功不可没,尤其是在精细操作能力方面。"今年,人们终于认识到通用型机器人的构建已经成为现实,"她说。这些进展最令人瞩目的特点在于:它们几乎不依赖传统的程序编写,机器人的行为模式完全来自学习。

tony zhao


今年夏天一个清凉的早晨,我来到了加州山景城的一座改建办公楼,这里曾是一处购物中心,现已成为谷歌的产业基地。步入大楼时,我经过了一个小型展览区,那里陈列着公司过往的"登月计划"成果,包括Waymo(谷歌旗下自动驾驶公司)的首款自动驾驶汽车。上到二楼,谷歌DeepMind机器人部门的研究科学家乔纳森·汤普森和丹尼·德里斯正站在一个酷似工厂车间的空间中央,四周布满错综复杂的线缆。

约二十几个工作台前,操作员们正专注地进行着各种精密操作。有趣的是,他们并非使用自己的双手,而是在操控一对金属机械臂。这套名为"ALOHA"的系统,全称是"低成本开源双手远程操作硬件系统",最初源于赵在斯坦福大学的博士研究项目。每个机械臂的末端都装有一个能够在腕部旋转的机械爪,它们的动作让人联想到迅猛龙的头部——虽有几分生硬,却也透着优雅。
我看到一位女性操作员正小心翼翼地用机械臂将一条项链放入珠宝盒;她身后的另一位女性则在开启一个密封袋;不远处,一名年轻男子正指挥机械臂折叠一件儿童衬衫。这些都是需要极高精确度的工作,整个空间静谧得只能听见机械关节运作时发出的细微声响。"这些平行夹持器的能力总是让人惊喜,"汤普森一边说,一边邀请我在一个空置的工作台前就座。

我握住了两个控制手柄,只要推动或拉动任一只手,对应的机械爪就会随之移动。汤普森在桌上摆放了几个玩具和一支荧光笔。我用右手笨拙地去夹一颗小塑料钻石,想把它塞进积木上的一个钻石形状的孔里。"真不太容易掌握,"我说。虽然我的大脑惊人地快就接受了这对机械爪是我"新手"的设定,但还没学会灵活地控制它们。那颗钻石就是不听使唤,让我想起儿子最初接触玩具时的手足无措。

"试试在两只手之间传递物体,这样调整位置会容易很多,"汤普森建议道。
这时我才想起还有左手可用。我试着开合左边的机械爪,很快就掌握了在双手间传递钻石的诀窍。德里斯补充说:"虽然没有触觉反馈,但你会发现这并不影响操作。"确实,当机械爪握住钻石时,我感受不到任何压力——但我终于成功地将钻石对准孔位放了进去。

渐渐有了信心后,我尝试了个更有挑战的动作:左爪夹住荧光笔,右爪拔掉笔帽。汤普森告诉我,这也是他们给操作员设计的训练任务之一。在工作台下方有两个踏板,分别标注着"成功"和"失败"。操作员可能要花上几个小时,反复练习取放笔帽的动作,成功时踩右踏板,失败则踩左踏板。通过这种方式,人工智能系统能运用"模仿学习"技术,归纳总结成功操作的要领,最终无需人工操控就能完成任务。这就像网球教练扶着学生的手臂,教导标准反手动作一样,让机器通过模仿来掌握技能。

我注意到桌下有台电脑。德里斯解释说,整套系统配备了四个摄像头用于数据采集,还有多个传感器实时追踪机器人的空间位置。这些数据经过多层神经网络的处理提炼,最终会形成一个"行为策略"——本质上是指导机器人行动的程序。普通流水线上的机械臂可能只需要简单的策略:转动十度、抓取、放下、回位、重复。而这里开发的策略要复杂得多,它是对所有成功操作经验的综合提炼。


德里斯走到控制台前开始输入指令。他想向我展示一个自动挂衣服的程序。"这个程序是通过多少次示范训练出来的?"汤普森问道。"八千次,"德里斯答道。

八千次反复挂衣服——光是想象这个场景就让人叹为观止。这时,一位新来的操作员走到我们身后,正在活动手腕热身。汤普森解释说:"我们规定操作员每工作一小时必须休息一小时。"

程序准备就绪后,汤普森在桌上展开一件儿童polo衫,德里斯按下回车键。瞬间,我刚才还在手动操控的ALOHA系统开始自主运转。那对机械手仿佛注入了生命,带着明确的目标向衣服伸去,它们的动作让我想起迪士尼《幻想曲》中那些被施了魔法的扫帚。

右侧机械爪精准地抓住衣服一角,伴随着马达的轻响,将衣服举向放着衣架的支架。左侧机械爪则稳稳抓住衣架。接下来的动作更为精细:将衣架穿过一侧肩膀,固定妥当,再处理另一侧。机器人短暂停顿了一下,似乎在思考,随后继续完成动作。最后,它将挂好的衣服稳稳放在了架子上。

"这次表现不错,"汤普森说着踩下了表示成功的踏板。这个看似简单的任务实际涉及复杂的协调:就像人类需要眼手配合,不断作出微调一样。虽然ALOHA是市面上最基础、最经济的机械臂系统之一,但研究人员们用它不断突破机器人精细操作的极限。
"它甚至能剥鸡蛋,"汤普森说。更令人惊叹的是,赵还成功地用它从镜片盒中取出隐形眼镜,并将其准确放置在玩具青蛙的眼睛上。当然,某些特别精细的任务,比如缝纫,目前仍然难以实现。


就像在谷歌图书计划的初期,需要工作人员手动翻阅数百万页书籍来数字化知识一样,这一屋子的ALOHA系统正在破解人类日常生活中那些看似简单却极其精妙的物理动作——这些是人类行为中最后一片尚未被完整记录的处女地。这些实验收集的数据将用于训练研究人员所说的"大型行为模型"。

我向汤普森和德里斯请教他们最负盛名的机器人程序。"有位德高望重的教授曾说,只要机器人能够系鞋带,他就立即退休,"德里斯说着,汤普森将一只鞋放在了桌上。

机械爪启动后,动作行云流水:先是抓住鞋带两端,将其打成圆环,然后熟练地穿插翻转。当机械爪完成动作分开时,我们都情不自禁欢呼起来:机器人真的系好了鞋带!

"那位教授真的退休了吗?"我好奇地问。答案是否定的。这涉及人工智能领域的一个终极挑战:泛化能力。也就是说,当面对超出训练范围的情况时,程序是否依然有效?要知道,这个程序仅仅接受过两三只鞋的训练数据。

"用我的鞋子试试看会怎样?"我提议道。

"没问题,"汤普森欣然应允。我脱下右脚的运动鞋,并为之后要处理这只鞋的人报以歉意。汤普森爽快地把鞋放在桌上,德里斯则重新启动程序。

"先说好,"德里斯提醒道,"这在业内一直被认为是个不可能完成的任务。"

汤普森打量着这个新的实验对象,略显忧虑:"鞋带太短了。"

程序启动后,机械爪开始行动。但这次它们只是在鞋带周围徒劳地试探。"要不要先征求一下你对鞋子报废的同意?"看着机械爪抓住鞋舌时,德里斯打趣道。汤普森让它再试了几秒,便按下了失败踏板。


儿童发展专家常说,婴儿在九个月大左右会发展出"精细抓握"能力——用拇指和食指捏住小物件的技能。这种描述仅仅从手部动作的角度定义了这项能力,但同样重要的是背后所需的认知。孩子们必须通过实践来掌握:要用多大的力气捏住一块牛油果而不让它滑走,或是如何恰到好处地捏住一个麦圈而不把它捏碎。

从出生那刻起,我的儿子就在不断进行着人工智能研究者所说的"下一步预测"训练。当他伸手去抓香蕉时,大脑已在预测指尖将有怎样的触感。当香蕉滑落时,这就成了一次学习。这与当下ChatGPT等大语言模型的训练方式惊人地相似:当模型在处理互联网上的文本时,它会故意遮掩句子中的下一个词块(称为"标记")。它根据已知内容预测被遮掩的部分,然后通过对比预测与实际,从中学习。这种方法的妙处在于几乎不需要人工干预,只需要输入互联网规模的原始文本数据即可。

作为成年人,我们对物理世界已建立起一个难以言表的丰富认知模型,这是一生积累的结果。不妨做个小实验:随意看看周围的任何物体或表面,想象它的味道。你的预测很可能是准确的,这得益于你幼年时期那些爬行摸索、什么都往嘴里放的经历。
像所有成年人一样,我在不知不觉中就完成了需要精细控制的动作:把被子塞进被套,单手撕开一袋封口的狗粮。我与儿子的区别在于,我的预测大多准确无误。我不会天真地去抓流动的水。正因如此,那些出乎意料的经历反而格外深刻。前不久在一家餐厅,朋友示意我去碰一个看似玻璃制品的装饰,谁知它却像橡胶般摇晃——我的"世界模型"又更新了一次。


ALOHA系统在系鞋带这样的任务上不及人类,并非因为它只有简陋的、没有触觉的机械爪,而是因为现实世界中每双鞋都独一无二——鞋带的编排方式、每次提起时的弯折和下垂都各不相同。遗憾的是,物理世界中物体之间的互动方式并没有像互联网文本那样可供参考的海量数据库。为此,研究人员发展出了几种相互竞争的机器人学习方法。

其中一派专注于虚拟模拟。人工智能芯片巨头英伟达开发了工业流程"数字孪生"软件,让计算机能在机器人实际操作之前进行动作练习。OpenAI在训练机械手转动魔方时也采用了模拟数据:通过多个机械手同时并行练习,压缩完成了相当于真实机器人需要一万年才能完成的训练量。这种方法的优势显而易见:只要有足够的计算力,就能产生无限的训练数据,让机器人像《黑客帝国》中尼奥下载功夫般快速掌握技能。
然而,机械手和魔方的物理特性无法被完美模拟,就连一张普通的纸巾,在揉皱或撕裂时的表现都难以预测。去年,英伟达发表论文展示了一项突破:他们教会了虚拟机械手模仿学生百无聊赖时的转笔动作——这个动作的特点是笔大多时候都在空中翻转。但论文对这个技巧能否在真实机器人上实现只字未提。


相比之下,模仿学习似乎更有前途。美国初创公司Figure已募集超过6亿美元,专注开发一款完整的"类人机器人",配备头部、躯干、手臂、腿部和五指机械手。据Figure创始人布雷特·阿德科克介绍,该机器人最精妙的操作技能是"单片意大利香肠分离"——能够从整条香肠中精确剥离出单片。"如果你想实现人类的能力,"阿德科克说,"就需要一个能像人类一样与环境互动的机器人。"(特斯拉、1x、Agility以及数十家中国企业都在开发类人机器人。)温哥华机器人与人工智能公司Sanctuary AI的联合创始人乔迪·罗斯认为,收集人形机器人的数据更为直观。
"假设让你用一个有八个吸盘触手的章鱼机器人来拿杯子,你肯定无从下手,对吧?"他说,"但如果是人手的形状,你立刻就知道该怎么做。"Sanctuary公司的优雅人形机器人Phoenix正是通过人类远程操控来学习。"操作员"需要穿戴触觉手套、覆盖上身的外骨骼装置,以及能显示机器人"视角"的虚拟现实头盔。操作员的每个动作,哪怕是小指最细微的弯曲,都会被机器人精确复制。虽然Phoenix的学习原理与ALOHA相似,但它的动作表现力要强得多。

显然,如果每项技能都需要人工示范,要让机器人真正派上用场,不仅需要漫长时间,还需要大量的操作设备。就像我想学烤面包时,不会请来《英国烘焙大赛》的评委保罗和普鲁来手把手指导,而是直接看节目学习。
"这就是我们追求的理想境界,不是吗?"ALOHA项目负责人汤普森说。"想象一下,让机器人通过观看YouTube视频来学习任何你想要它掌握的技能。"但问题在于,视频中看不到面包师弯曲手肘的精确角度,也无法得知揉面时指尖施加的力度。要实现远程示范学习,机器人首先需要能够将自己的动作与人类动作对应起来。这需要两个基础:一是对物理世界和自身存在的认知模型,二是一套基本动作技能库。

机器在学习


人类在生命早期就掌握了学习的方法。
不久前,我儿子坐在摇马上,因为马儿纹丝不动而感到沮丧。这时他回头看见一个小女孩正在踢腿让自己的摇马晃动。于是他有样学样,试了几次后,摇马终于动起来了,他的脸上随即绽放出欢欣的笑容。人工智能领域的专家常常提到"飞轮效应"——就像一个圆盘,一旦开始旋转就会持续转动。当这个"学习飞轮"真正运转起来,机器人探索世界的效率就会大大提高,学习进步的速度也会加快。这解释了机器人如何从被动学习(需要人工操控)跃迁到主动学习(自主探索)的过程。

谷歌园区里有一栋较为古老的建筑,里面放着一张乒乓球桌,球桌一侧装有一个工业级机器人手臂——外形酷似汽车装配线上的那种,只不过它握着的是乒乓球拍。在我参观的那个下午,研究工程师萨明达·阿贝鲁万正坐在球网对面的控制台前,软件工程师潘纳格·桑克蒂示意他"启动程序"。机械臂随即发出嗡鸣,进入备战状态。

我曾在2022年看过这个机器人的视频,当时并不觉得它有多厉害。用我初中网球队的行话来说,这机器人就是个"推球手"——只会被动回球,不会进攻,最多能应付应付新手。但显然系统在这两年有了长足进步。研究员费·夏特地提醒我:"当心它的正手球。"

阿贝鲁万发了个热身球给机器人。整个装置——机械臂固定在一个工字型支架上——像打印机头般运作,伴随着轰鸣声,以令人意外的高速移动。球拍划出一道优美的弧线,以上升击球的姿态将球回击过网。阿贝鲁万脚下灵活,接住了这个球,但在第三个回合,机械臂突然抽出一记刁钻的正手斜线球。比分0-1。

"我不想跟它打太久,"阿贝鲁万说,"它会开始针对我的弱点。"说着把球拍递给了我。


作为人类的劣势之一就是,无法像机器那样即时装载技战术程序。我通常需要一刻钟左右才能在球台前找到感觉。我轻轻发了个球过去,想要热身,但对面回来的却是一记既快且深的斜线球,直接从台子边缘飞了出去。

"这家伙够猛的,"我说。它似乎专注于抢攻边角。

"我们调整了它的参数,让它更具竞技性,"桑克蒂解释道,"结果就变得更富攻击性了。"

它的许多球都打得过长。我放慢了击球速度,它这才找到了准心。一旦进入多拍相持,它打出的角度便越发刁钻。越来越多的球开始朝我反手位置袭来。"明显能感觉到它在研究适应我的打法,"我说。

见它在针对我的弱点,我也开始反击,尝试在球上加入旋转变化。这一招奏效了,它的回球直接撞网。"看来旋转球是它的软肋,"我说。原来研究团队曾试图用动作捕捉系统来计算选手击球时球拍的倾角,但系统精度还不够理想。

这个机器人还有其他局限。"它不能离球台太近,"桑克蒂解释说。为了安全起见,机器人必须与球台保持至少两英寸的距离,这就限制了它在回球时施加上旋的能力。我抓住这一点,专门打又快又低的球,这种球机器人特别难应付。桑克蒂猜测,这就是为什么会有那么多过长球。当然,更根本的原因可能是它从未遇到过我这样的对手。用机器学习的术语来说,我的打法属于"数据分布之外"——就像那双不同寻常的短鞋带球鞋一样,超出了它的训练经验。

"不过这个问题好解决,"桑克蒂说,"我们会收集它所有失误的球路数据,输入到训练循环中重新学习。等你下次来时,它的水平就会更高了。"仅仅在今年夏天的四周时间里,通过与二十几位球员的对战,这个机器人就从一个生涩的新手进化成了一个中高级水平的选手。"你们的最终目标是让它达到超越人类的水平吗?"我问道。

"没错,"桑克蒂答道。我注意到在他身后还有一张乒乓球台,配置着类似的装置,但两边都是机器人。我似乎已经预见到了未来的发展方向。


DeepMind最初是2010年在伦敦创立的一家人工智能研究实验室,因开发出在围棋比赛中战胜世界冠军的AlphaGo模型而声名鹊起。
AlphaGo起初是通过学习海量人类对局数据来模仿专业棋手的走法。而后来的升级版本完全放弃了模仿学习,转而采用"自我对弈"的方式训练,让程序与自己的副本对弈。这个模型展现出惊人的学习效率,成为"强化学习"技术的标杆之作。在强化学习中,人工智能不是通过模仿人类,而是通过不断尝试和犯错来学习。每当模型偶然下出一步好棋,系统就会强化导致这个选择的决策链,从而不断进步。仅仅经过30小时的训练,它就跻身全球顶尖棋手行列。

但是,相比在虚拟环境中收集数据,在现实世界中获取训练数据要困难得多。比如,谷歌DeepMind最强的围棋模型可以在几秒钟内完成一盘虚拟对弈,但在现实中,乒乓球的往返速度受限于物理定律。公司的乒乓球机器人系统占据了整个房间空间,而且只有三台;研究人员不得不设计出一套复杂的自动回收装置,用风扇、漏斗和接球器将散落的球收集起来供机器人继续对战。
据桑克蒂介绍,目前机器人的进攻能力远超防守能力,这常常导致比赛过快结束。"因为无法形成持久的相持,"他解释道。这也是为什么研究团队仍需要通过人机对战来训练机器人。

开发一个能战胜所有对手的乒乓球机器人,这个项目很符合DeepMind的一贯风格:既是一项引人注目的技术突破,又容易让公众理解其意义。从实用角度看也很有价值——试想有一个永不疲倦的陪练搭档,能随着你水平提升而相应调整。但有意思的是,机器人项目负责人帕拉达透露,这个项目可能就要画上句号了。
自从谷歌2014年收购DeepMind,并在2023年将其与内部人工智能部门Google Brain合并以来,公司似乎不太热衷于推出富有创新性的人工智能产品。(他们更倾向于进行高水平但略显学术化的研究,这些研究成果在商业化过程中往往会被大幅简化。)不过帕拉达认为,乒乓球机器人项目已经证明了两个关键点:首先,机器人能够快速"思考"以适应运动竞技的需求;其次,通过与人类的互动,机器人能在物理技能上持续进步。这些发现,加上ALOHA系统展现出的惊人潜力,为机器人达到人类级别的灵巧性指明了方向。


在机器人领域,让机器人通过强化学习实现自主学习这条路,长期以来都被认为是死胡同。其中一个根本性的挑战是"学习进程设计":如何在避免彻底失败的前提下,鼓励学习者突破自己的能力边界?在虚拟的围棋对弈中,因为走法数量有限且胜负条件明确,算法可以从任何引向胜利的走法中获得奖励。但在现实世界中,可能的动作组合是无穷无尽的。
比如当机器人尝试转笔时,失败的方式远多于成功的方式,它如何判断自己是否在进步呢?在魔方项目中,研究人员不得不人为设计奖励机制,像撒面包屑引路一样指导机器人:规定当完成某些人类认为有价值的动作(比如将魔方某一面精确转动90度)时,就给予积分奖励。

人类的独特之处在于与生俱来的求知欲。我们能为自己创造学习动力。
比如我儿子之所以想掌握手部技能,是因为他对周围的一切都充满好奇,迫不及待要亲自尝试。这种内在动力促使他不断学习新技能,无论是爬行还是够取身后的物品。可以说,他为自己设计了完整的学习路径。等到他尝试复杂动作时,已经积累了丰富的基础动作储备,这让他能够自然地避开那些明显会失败的方法,比如毫无章法的乱动——这恰恰是未经训练的机器人最容易陷入的误区。相比之下,如果机器人缺乏明确的学习目标和奖励机制,往往除了损坏自己之外一无所获。


杰森一家,片中有个机器人

科幻电影中的机器人——无论是机械战警还是终结者——总是被塑造得比人类更加坚不可摧,但现实中的机器人却异常脆弱。"如果让机器人手臂去撞击桌面或用力推物体,很可能会当场损坏,"Shadow Robot公司的理查德·沃克说。该公司为OpenAI的魔方实验提供了机械手。"长时间的强化学习实验对机器人来说简直是种折磨。
那些未经训练的操作策略更是纯粹的自我摧残。"这种脆弱性从根本上限制了机器人的学习能力。它们无法像婴儿那样自由地探索物理世界。(说起来,婴儿的适应能力其实异常强,而且父母总能在他们吞下玩具或从床上一跃而下之前及时制止。)

近几年来,Shadow Robot一直在研发一种形似中世纪铁甲手套的新型机械手,配备三根手指,每根都像拇指一样灵活可控。在指尖的"皮肤"层下是一层特殊凝胶,上面布满微小标记点,内置摄像头可以捕捉这些点;当受到压力时,这些点的排列方式会随之变化。这种设计让机器人的"大脑"能够准确感知手指的触碰对象和施加的力度。与早期版本相比,这款机械手有了显著提升——之前的版本每运行几小时就需要重启或保养,而新版本可以持续工作数百小时。沃克向我展示了一段测试视频,机械手指竟能承受直接的锤击冲击。


在最近的一次视频通话中,我看到了谷歌DeepMind伦敦实验室里的几只新型Shadow机械手,它们悬挂在封闭的空间里,像被关在笼中的鱿鱼。手指快速地持续运动着,速度快到几乎成了模糊的影子。我注视着其中一只机械手抓起一块类似乐高的黄色积木,试图将它放进相应的凹槽中。这对人类来说是个再简单不过的任务,但对一只三指机械手而言,光是在不掉落积木的情况下调整其位置就已经相当困难。
"这个任务本身就充满不确定性,"DeepMind机器人部门工程主管弗朗切斯科·诺里解释道。仅靠三根手指,你常常需要暂时放开积木再重新抓取,就像在手指间抛接物体一样。握力的细微变化都会影响积木的稳定性。为了说明这一点,诺里用拇指和食指夹住手机,当他稍微放松手指时,手机开始旋转却没有掉落。"你需要施加恰到好处的力度,"他说,"既要足够稳固,又不能太紧,因为你还需要在手中调整物体的方向。"

研究团队最初采用了模仿学习的方法,让操作员戴上三指手套来训练程序,就像ALOHA系统那样。但操作员半小时就感到疲惫不堪,而且操作一只与人手只有些许相似的机械手感觉很不自然。每个操作员都用自己的方式来完成任务,最终训练出的程序成功率仅有2%。问题在于可能的动作组合太多,机器人不知道该模仿什么。


面对这一困境,团队转向了强化学习。他们想出了一个巧妙的方法来利用成功的模拟数据——将每个示范动作分解成一系列小任务。然后让机器人循序渐进地练习这些小任务,从简单的开始,逐步过渡到困难的。这样一来,机器人实际上在遵循自己的学习进度。这种训练方式让机器人能够从更少的数据中获得更多收获:如今它能在64%的尝试中成功将积木放入凹槽。

当团队最初开始运行这个程序时,积木还是明亮的黄色。但经过无数次的操作之后,机器人手指上的灰尘和金属磨损已经让积木的边缘变得发黑。"这些数据非常宝贵,"项目研究员玛利亚·鲍扎说。这些数据能够完善他们的模拟系统,进而改进现实中的操作策略,这又会进一步优化模拟系统。整个过程甚至不需要人类参与。

在谷歌,就像在许多顶尖的学术和工业研究实验室一样,你会觉得自己仿佛置身于《星球大战》中的机器人维修站。在山景城,当我正在观察一台ALOHA系统运作时,旁边站着一个看起来很友好的小型轮式机器人,让人想起《机器人总动员》里的角色。拐角处还有一对巨大的机械臂,项目研究人员形容它"轻而易举就能折断骨头"。(当然,机器人设有防护措施来防止这种情况发生。)它正在叠积木——算是个超级版的ALOHA。伦敦实验室则有一支二十英寸高的类人形足球机器人队。


历史上,每种型号的机器人都是独立的个体:用于控制一个机器人的程序无法用于另一个。但研究人员现在正在展望一个新时代:一个统一的人工智能系统可以操控各种类型的机器人。

这让人想起计算机翻译的发展历程。科学家们最初为不同语言对开发专门的翻译模型,比如英法互译或法西互译。随着技术进步,这些独立模型最终融合成了支持任意语言互译的通用系统。但即便如此,翻译仍被视为一个独特的问题领域,与语音识别或图像处理等任务泾渭分明。每个领域都有其专门的研究团队或专业公司。
直到大语言模型的出现彻底改变了这一切。
它们展现出令人惊叹的多面性:不仅能够进行语言翻译,还能通过法律考试、编写程序代码,甚至完成更多复杂任务。曾经分散的技术能力被整合进了统一的人工智能系统,学习效率也随之大幅提升。看看ChatGPT的最新版本:它能用数十种语言自然对话,话题不受限制,还能演唱歌曲,甚至能准确捕捉交谈者的情绪。在每个专项领域,它都超越了之前专门为该任务开发的独立系统。

机器人技术正在经历类似的革命性变革。在这个领域的发展历史中,仅仅研究视觉处理、动作规划、运动控制或最具挑战性的灵巧操作等某个细分领域,就足以写就一篇完整的博士论文。但如今,像GPT-4这样的"基础模型"已经在很大程度上整合了机器人的视觉和规划能力,运动控制和灵巧操作也即将被纳入其中。这种整合甚至开始跨越不同的物理形态。
最近,一个大型研究联盟证明了不同类型的机器之间可以共享学习经验。这让人想起《变形金刚》中的擎天柱:无论是变成人形还是卡车,都由同一个智能核心控制。现在设想这样的智能核心还能操控工业机械臂、协调无人机编队,或指挥四足货运机器人。


人类大脑在控制不同工具方面表现出极强的可塑性:即使你从未使用过假肢,你也可能体验过扳手或网球拍仿佛成为身体延伸的感觉。当开车经过一辆双排停放的汽车时,你能凭直觉判断副驾一侧的后视镜是否可能被刮到。有充分理由相信,未来一代人工智能也将获得真实大脑这样的运动可塑性。
"最终,我们将看到的是一种统一的智能,"谷歌DeepMind的机器人研究科学家基尔萨娜·戈帕拉克里希南告诉我。为此,人形机器人初创公司Figure与OpenAI合作,致力于为大语言模型赋予物理形态;经过多年暂停后,OpenAI也开始重新招募机器人研究团队。

切尔西·芬恩是斯坦福大学的机器人学教授,她参与了ALOHA系统的早期开发,并在谷歌工作多年。但不久前她离开公司,共同创立了Physical Intelligence公司,旨在开发能控制任何机器人的软件。(之前向我展示ALOHA的德里斯也加入了她的团队。)大约一个月前,Physical Intelligence发布了其首个"通用机器人策略"。在一段视频中,一个双臂机器人将衣物从烘干机中取出放入篮中,将篮子推到桌边,然后折叠衬衫和短裤,将它们整齐叠放。
"第一次看到机器人连续从洗衣篮中取出五件衣物并折叠好时,那可能是我对研究成果最激动的一次,"芬恩告诉我。驱动这一令人瞩目表现的人工智能系统名为π₀,据报道可以控制六种不同的机器人形态,并且用一套策略就能解决多个对ALOHA系统来说都具有挑战性的任务:打包杂货、组装箱子、清理餐桌。它通过结合类似ChatGPT的模型(具有广泛的世界知识并能理解图像)和模仿学习来实现这些功能。"这肯定只是个开始,"芬恩说。


当我们想象有机器人的未来时,往往会想到《杰森一家》中的萝西:一个做家务的人形机器人。但机器人革命不会止步于让类人机器人折叠衣服。我住在纽约市,我所能看到的几乎每样东西都是人手所造。中央公园看起来很自然,但它曾经只是一片平淡无奇的沼泽。数千名工人花费数年时间建造了水库、湖泊和起伏的山丘。他们的双手推动铲子入土造山,点燃炸药炸开岩石,将幼苗小心翼翼地种入土壤。

几年前,在苏黎世机场附近的一个回收中心,一只巨大的"手"正在工作。这是由苏黎世联邦理工学院的研究人员开发的自动挖掘机,它正在建造一道挡土墙。它用机械臂末端的液压抓手抓起一块巨石,转动着观察,就像在打量一个水果。挖掘机朝着正在增长的石堆——未来的墙体——移动,一个算法预测新石块将如何在其他石块上找到平衡点。挖掘机轻轻松开抓手,将石块恰到好处地放置,然后笨重地返回去取另一块。当这道65米长的墙完工时,它包含了将近一千块巨石和回收的混凝土块。它构成了一个新公园的边界。这台机器人的工作速度与一个有经验的挖掘机操作工相当。

该项目的主要研究员瑞安·卢克·约翰斯经营着一家名为Gravis Robotics的公司,其口号是"动动手指,搬动大山"。他预见"适应性再利用"材料可能会取代混凝土,建筑将变得更便宜也更富魅力。机器人可以创造新的中央公园。这种前景很容易令人着迷——同时也让人想象到释放如此强大力量于世界的风险。
我们已经发现人工智能难以控制。出于安全考虑,聊天机器人被限制产生某些类型的内容——错误信息、色情内容、生物武器制造说明——但业余爱好者经常用简单的提示就能让它们"越狱"。如果一个谈论武器的人工智能都很危险,那么想象一个本身就是武器的人工智能:一个人形士兵、一架狙击无人机、一枚会思考的炸弹。如果机器人模型真的能不受具体形态限制,那么今天在乒乓球上击败人类的同一种策略,某天可能会用来射杀某人。
"无人机制造商现在就在处理这个问题,"一位麻省理工的科学家告诉我。"他们可以说,'我们只卖给特定的人,而且永远不会出售带武器的无人机。'但这并不能真正阻止有人去......"在乌克兰战争中,原本用于航拍的消费级无人机被改装成遥控炸弹。如果这些无人机变得自主,军队可能会声称并非他们下令发动某次攻击——是他们的机器人干的。"你无法惩罚一个无生命的物体,"英国谢菲尔德大学计算机科学荣休教授诺埃尔·沙基写道。"能够确定责任归属对战争法则至关重要。"据估计,超过90个国家拥有军用机器人项目,主要涉及无人机。世界上几个主要军事大国尚未同意联合国关于限制使用这些机器人的决议。

和平用途的机器人也可能扰乱我们的生活。我与一家小型创业公司的创始人交谈,他们正在开发一款半自主的人形家政机器人。设想是这样的:当你在工作时,机器人可以从衣柜里滑出来打扫房间;如果出现任何问题,印度或菲律宾的操作员可以接管控制。这种方法可以节省大量时间和金钱。但另一方面,它可能会夺走人们的工作。当我问及那些靠本地家政服务谋生的人将何去何从时,这位创始人说他们可以申请获得分红。
"资本主义体系中存在着用资本替代劳动力、用机器替代人的内在驱动力,"维也纳大学专门研究人工智能伦理的哲学教授马克·科克尔贝格告诉我。他指出,"机器人"这个词来源于捷克语robota,意为"强迫劳动"。"但并非所有任务都应该交给机器人。这掌握在我们手中。我们需要思考的是:我们希望人类从事什么样的工作?"


试图预测人工智能驱动的机器人的未来,就像站在19世纪制帽工人的角度想象工业革命一样。我们太习惯于将物理技能局限在一个身体里了。
我还记得我第一次学会转笔时的场景:在密歇根大学梅森厅的一间空教室里。我看到一个朋友这样做,然后开始练习。用了几个小时就学会了。如果其他人想学同样的技巧,他们也得练习。但是,如果机器人研究者能够将物理技能提升到虚拟层面,他们就能像分发新的智能手机应用一样轻松地传播这些技能。一旦一个机器人学会了系鞋带,所有机器人都能做到。想象一下,复制粘贴的不仅是煎蛋卷的配方,而是制作它的整个过程。

在我儿子生命的早期,他的一次血液检查结果异常,我们不得不带他去多次抽血。从一个八周大婴儿的手臂上抽血并不容易。在一次相当可怕的尝试中,我们抗议得太厉害,以至于一个抽血技师对另一个说:"要不要叫马莎来?"他们说的是一位特别擅长找到血管的护士。马莎来了,毫不费力地找到了血管。她的手应该上保险。

总有一天,人工智能将指引一只嗡嗡作响的金属手,也许指尖带有凝胶,向新生儿的手臂伸去抽血。很难说是该为那一天的到来欢呼还是恐惧。我可能永远不必面对这个问题,但我怀疑我的儿子会遇到。每当这个想法出现时,我就握住他的小手,轻轻捏一捏。
【完】

我是不懂经的经叔,国内最早翻译介绍了纳瓦尔的《如何不靠运气获得财务自由》,以及影响了纳瓦尔、中本聪、马斯克等大佬的《主权个人》。
不懂经知识星球,众多百万粉丝大V、千万及亿万富翁订阅。专注分享一人企业、一人创投主题,关键词:AI、IP、创投、科技及商业前沿的高杠杆内容。

未来的硬通货食物链:代码=数据=信息=内容=流量=注意力=货币=资本
一块钱顶100万:光速下的通胀与传统经济学的崩塌
15秒成为有钱人:美国版《挖呀挖》及它们共同的成功法则
万字重磅:未来10年财富游戏的金律与金线
马斯克最新荐文:为什么文化会赢?(深度认知战争、科技乃至自媒体)
费里斯X格雷厄姆:论人类财富游戏中超线性回报的来源


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/176335
 
40 次点击