站在黄仁勋身边的人形机器人，正在进入ChatGPT时刻？

腾讯科技特约作者周小燕

编辑郑可君

北京时间1月7日，黄仁勋和14台人形机器人同时出现在2025年CES展会的舞台上。

这一幕似曾相识，就在2024年3月，黄仁勋曾同时与9家人形机器人亮相英伟达GTC大会的舞台。

（2024年3月，黄仁勋与9台人形机器人在英伟达GTC大会）

彼时，黄仁勋发布英伟达人形机器人通用基础模型Project GR00T，正式宣布进驻人形机器人服务商。Project GR00T就像帮助机器人变得更聪明的大脑，在GR00T的指挥之下，机器人能够理解自然语言，并通过观察人类行为模仿动作，从而适应现实环境并与之交互。

与GTC大会不同的是，黄仁勋这次在CES上重点发布的是世界基础模型开发平台Cosmos，它提供了一种简单的方法来生成大量基于物理世界的合成数据。

Cosmos可以通过文本、图像或视频的提示，生成高度仿真的虚拟世界，它基于2000万小时的视频进行训练，分为自回归模型和扩散模型两类。

与其它合成数据生成平台不同的是，Cosmos能够理解这个世界，比如它可以理解几何空间、摩擦力和重力，并且压缩“虚拟”与“现实”之间的差距。

对于具身智能而言，这是一个重要突破，因为它帮助人形机器人解决泛化道路上的最大瓶颈之一“高质量数据稀缺”问题，为人形机器人感知环境创建逼真的环境和感知物体。

与黄仁勋一起出现在CES舞台上的1X、Agile Robots、Agility、Figure、傅立叶、波士顿动力等14家人形机器人，都是英伟达Cosmos平台的种子用户。

那么，在这之前，人形机器人数据采集遇到了哪些难点？Cosmos对解决这些难点产生哪些价值？

高质量数据瓶颈

成为人形机器人泛化难题

通用人形机器人，需要拥有任务泛化能力。

但目前不论是老牌人形机器人波士顿动力Atlas，还是新兴的擎天柱、Figure等，它们在实际场景的应用还停留在单点任务处理上。比如，擎天柱学会了叠衣服，但是又要重新训练才能学会叠被子。也就是说，它们在完成一个任务后，不具备自主判断下一个任务要做什么的能力。

而阻碍人形机器人拥有泛化能力的最大因素，就是高质量数据的稀缺。即便Agility旗下的Digit机器人整天泡在亚马逊工厂里打工，拥有天然的丰富场景数据学习环境，它的首席技术官Pras Velagapudi依旧表示：“数据稀缺性和多变性是机器人从环境中成功学习的关键挑战。”

机器人需要高质量的数据，否则可能会导致目标误判或任务失败，甚至做出不恰当的行为。比如，一个涂抹酱汁的机器人可能会把酱汁洒一地，一个医疗手术机器人可能会用手术刀伤到人类。

为了给机器人采集到高质量数据，根据机器人是否与真实世界接触，通常会从现实世界中采集真实数据，采集方式有两种：

1. 直接接触数据（真机数据）：机器人用自己的传感器与物理世界直接交互。比如波士顿动力的液压Atlas在实验室“跑酷”，Figure02机器人在美国斯帕坦堡宝马车厂打工。

2. 间接接触数据（人工控制数据）：通过人类操作让机器人与物理世界接触并记录，比如斯坦福的炒菜机器人Aloha就是人类控制机械臂进行操控的。

对于机器人而言，最理想的数据采集方式是通过机器人本体直接触达物理世界，这种方式能让机器人准确理解真实的环境，也就是真机数据。

但采集真机数据需要付出大量时间和资金成本。

首先，必须要让机器人部署在实际环境中，但大多数人形机器人受限于运动技术水平，只能待在受限的实验室环境。

这就很难通过规模化集中化方式让机器人高效完成数据采集。就像父母们既希望孩子拥有丰富的知识面，却又将孩子关在家中闭门不出，在受限的环境里，他们无法理解外面的世界有多大。

于是，必须花费大量时间去搭建各种场景，让机器人做“题海战术”。

其次，机器人学习新技能的效率十分低下。比如，机器人学会了拿苹果，转而去学习取盘子，又要重新经过大量学习。

于是，研究人员试图寻求间接的办法，使用人力作为辅助，帮助机器人提高学习效率，也就是远程遥控，人走到哪里，机器人也可以跟着学到哪里，但这个方式的成本依旧高昂。

2024年年初爆火的炒菜机器人Aloha，采用了一个有趣的方案收集数据，基本思路是设置两个机器人手臂，让它们互相镜像，人类可以推动一个手臂，另一个手臂则执行任务，比如拿起一个积木。通过反复演示（比如50次），机器人可以学习如何完成特定任务。

尽管Aloha使用了低成本的手臂，但每个也要大约5000美元，为了完成这项训练，至少需要4个机械臂大约2万美金，而这实际上已经是比较低的成本了，通常工业手臂可能价值数十万美元。

智元机器人姜青松曾在2024年8月份智元机器人发布会上算了一笔账，智元机器人计划建立的采样厂包含100台采样机器，对应150位工人，目标是希望每个工人每天采集1000条数据，按照0.4元/条的成本计算，150位工人则意味着采样厂日均成本高达6万元。

人形机器人变得更智能，需要在更短的时间里获得更多的高质量数据。

人形机器人数据卡点

被英伟达Cosmos攻克？

为了解决低成本获得高质量数据问题，很多人开始尝试采用合成数据。

合成数据并不只在机器人场景使用，大模型、自动驾驶等许多需要训练人工智能、需要数据支持的场景都在使用合成数据。

但合成数据也存在问题，就像近亲繁殖，如果使用合成数据超过一定比例，反而会让数据质量下降。

2023年，莱斯大学和斯坦福大学的研究人员发布了一项研究，表明过度依赖合成数据进行训练可能会导致模型的质量和多样性下降。研究指出，采样偏差造成的合成数据，不能充分代表真实世界，并且会在经过多轮训练后，导致模型的多样性逐渐退化。

前OpenAI创始成员Karpathy在接受采访时表示，模型在训练时可能会出现一种“静默崩溃”的情况，简单来说，虽然单个输出看起来正常，但如果你看整个数据的分布，就会发现它缺乏多样性，变得单一。这对于合成数据生成来说是个问题，因为合成数据需要包含丰富的变化和多样性（也就是“熵”），否则就会生成一个过于单一、不真实的数据集。

因此，如何用比较低的成本，获得接近真实世界的数据，成为包括机器人在内等行业需要突破的关键。

于是就有了数字孪生，数字孪生并不是一个新概念，它用虚拟模型来“复制”一个真实物体、设备或系统，目前，数字孪生已经在制造业、医疗等领域得到了应用，但数字孪生的准确性和效果取决于所收集数据的质量。如果数据不完整、存在错误或不准确，虚拟模型的表现就会受到影响。

但作为世界模型，英伟达Cosmos平台和以往的合成数据工具都不相同，在英伟达公布的Cosmos论文中，对世界模型的描述是：

“世界基础模型就是一种根据过去发生的事和当前变化，来预测未来会怎样的工具。”

简单来说，Cosmos是一种类似“预测未来”的工具。它能把真实世界的规则整理好，根据当前的情况猜测接下来会发生什么，然后告诉自动驾驶汽车或机器人该怎么做。比如，假设前面有障碍物，模型会预测它可能移动的方向，并指导汽车或机器人做出反应。

这套工具是目前第一款专门为训练AI、自动驾驶和机器人的世界模型。

此外，黄仁勋在会场还演示了将Cosmos与英伟达Omniverse平台联合使用的功效，开发者可以基于Omniverse创建虚拟的三维场景，再叠加使用Cosmos生成与真实世界高度相似的场景，以便于开发者用于模型训练。

（左侧：Omniverse制作的虚拟仿真世界右侧：叠加Cosmos生成的效果）

在这个过程中，Cosmos对于机器人数据瓶颈最大的帮助，是用最低的成本，来缩小虚拟数据与物理世界数据的误差。

但Cosmos生成的合成数据未必能完全代替真实数据的作用。合成数据与真实数据各有优势，它们是一种互补关系，这一点从黄仁勋和马斯克近期的观点中也可以看出。

根据TechCrunch报道，马斯克在2024年12月也发表了对于AI数据的看法，他赞同人工智能行业已经达到“数据峰值”的说法，“补充现实世界数据的唯一方法是使用合成数据”。

有趣的是，黄仁勋在2025年CES后的采访中表示，Cosmos生成的合成数据无法替代真实数据，并认为自动驾驶应该尽可能使用真实数据，并且赞赏马斯克的特斯拉汽车工厂拥有大量行驶数据。

他们一个拥有高配置的仿真数据生成平台，一个拥有丰富的自动驾驶数据资源，在坚守各自阵地的同时，却也都在欣赏着对方的领域。

参考资料：

NVIDIA Launches Cosmos World Foundation Model Platform to Accelerate Physical AI Development | NVIDIA Newsroom

（如需交流欢迎加作者微信：aiyukuailetongzai ，烦请备注公司+职务）

推荐阅读