社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT 里走不出具身智能,为什么?

极客公园 • 5 天前 • 56 次点击  

从语言智能,到空间智能。

整理 | 曹思颀
编辑 | 靖宇

2024 年,具身智能无疑是 AI 领域里最火热的新赛道之一。

相较于目前大语言模型在数字世界里带来的技术变革,具身智能描绘了通往未来世界的另一条路径:大量具有智慧的机器人出现在真实的物理空间中,通过参与到人类生产、生活的各个环节,改变人类的生活方式。
但和大语言模型可以利用海量互联网文本、图像资源进行快速学习不同,在具身智能领域里,机器人缺少低成本、高效率、多样性、可泛化的学习数据。
如果只基于 Transformer 架构的大语言模型(如 ChatGPT),人类无法实现具身智能。海量物理正确的训练数据如何快速获取,是迈向具身智能前的世界级难题。
13 年前,黄晓煌回国创业。回国前,他在美国伊利诺伊大学学习 GPU 计算,也在英伟达做过云计算。他一开始的创业方式,是希望用 GPU、云计算来做物理仿真,但在当时,极少有人可以理解 GPU 通用计算的价值。于是,黄晓煌用 GPU 进行光学仿真,并应用对家装场景里,把过往需要几十分钟的渲染提速到了 10 余秒,自此开始了群核科技的创业之路。
多年后,凭借着在家装渲染、工业 4.0 生产对接中积累的海量数据,在具身智能的技术巨浪袭来时,群核科技终于脱下「家装公司」的外壳,浮出水面。他们希望可以在数字世界和物理世界中间,搭起一道桥梁,通过海量可交互的、物理正确的三维数据,推动具身智能的发展。
以下是群核科技联合创始人兼董事长黄晓煌在 IF 2025 主舞台的演讲全文。在演讲中,黄晓煌分享了群核科技的创业故事,以及他们对具身智能时代的思考。由极客公园整理。

01

ChatGPT 解决不了的「叠被子困境」

大家好,我是极客公园的老朋友,来自群核科技的黄晓煌。今天我介绍的主题是:如何让 AI 从数字世界走向物理世界。
大模型到来之后,所有人都想知道它能为我们做什么。我们的下一代已经成为了「AI 原生娃」。我女儿刚学会认字,但她已经能很自然地对着各种镜子和屏幕喊「小度小度」或者「小爱同学」了。
但他们目前还只能跟虚拟人物进行沟通,我们更希望孩子们跟物理世界有更多互动,有真实的陪伴。可惜即便 AI 现在已经可以吟诗作画,但就算叠被子这么简单的家务,机器人都实现不了。
当我们谈到具身智能或者机器人的时候,「叠被子困境」是一个非常典型的场景。
目前的 ChatGPT 大语言模型,可以很容易地让机器人理解人类的指令,「给我叠一个被子」,它也可以通过视觉判断哪床被子是叠好的、哪床被子没叠好,但它很难执行。或者当它学会叠一床被子后,换个形状可能就又不会了。
机器人的大脑在数字世界里,但身体却在物理世界中。解决这类问题,最关键的是在物理世界和数字世界里面建立一个桥梁。而 ChatGPT 一类的大语言模型是无法实现的,我们需要一个全新的大模型。
让机器人正确理解物理世界,关键是要有海量可交互的三维数据。很多大语言模型都是根据互联网上的语料信息、图片或视频训练出来的,但这些内容只是一堆静态的记忆,训练出来的东西跟物理世界是相违背的。
这里有一个简单的例子,左边是由 Stable Diffusion 大模型生成的卧室场景,右边是由我们的矩阵 CAD 引擎生成的。乍一看都挺漂亮的,但左边这张存在多处物理不正确的地方:比如有的床头柜悬空、有的柜门无法打开。我们需要在大模型脑海里呈现右边这种内容,来指导真实的生产制造。
Diffusion 模型生成的图片和视频,目前还存在和许多物理 bug | 图片来源:群核科技

02

群核的创业之路:家装公司收到硅谷来信

说说我的个人经历吧。我一开始在美国伊利诺伊大学香槟分校学习 GPU 高性能计算;后来去英伟达做了 CUDA;回国后成立群核科技,做了 3D 云设计平台;现在又在关注具身智能。
经常有朋友问我,为什么你选择这样的创业路线?我想说,在中国创业没办法太阳春白雪,要脚踏实地跟着时代走。
刚开始创业的时候,我想用 GPU、云计算来做物理仿真。但是回国一看,发现当时投资圈热门的都是移动互联网、O2O,我所想做的项目根本融不到钱。跟投资人讲 GPU 通用计算,在那个年代几乎就是对牛弹琴,更不要提物理仿真了。
后来,我们想到了用 GPU 来做光学仿真,把原来需要几十分钟、一个小时的效果图渲染提速到了 10 秒钟,为家装设计师提速。这个「家装 OTO」的概念,很快成为了资本最推崇的项目,帮我们融到了很多资金,让酷家乐成功上线并成为了设计师首选的设计工具。
下一步,我们抓住了工业 4.0 改革里,传统工厂打造柔性生产线的需求,用我们的数据帮助工厂进行升级。我们用物理仿真、数字孪生,把每一件商品拆解成一个个零件,通过流水线机器人以及传送带实现柔性生产。
但这依然不够,因为这些工厂里所有的机械臂都是没有智慧的。你告诉它往左就往左、往右就往右,机械臂是没有智能的。一旦进行微小的改动,所有一切都要重来。所以,现在的无人工厂实际上还不是真正的无人工厂。
那段时间我非常苦恼,但我们已经见识到了物理正确数据的价值。直到有一天,我看到马斯克提出用人形机器人在工厂生产汽车,就觉得工业 4.0 的下一步是把流水线机器人变成人形机器人。我觉得这是未来,而群核科技就是这些所有机器人训练的「道场」。
群核科技的空间智能探索之路 | 图片来源:极客公园
这些年我们做 3D 云设计平台,尽管路径一些曲折,但也积累了海量的三维数据:3.2 亿个 3D 模型、不计其数的物理正确的三维场景、月活接近 8000 万,服务了 200 多个国家和地区。我们在这个过程中始终相信,物理正确的空间数据是可以用来训练大模型的,我们的科研人员也一直在训练,在等待一个机会。
2018 年,我们的科研人员跟帝国理工、南加州大学共同发布了一个室内智能数据集方案。这是当时全球最大的室内场景认知深度学习数据集,一下子在学术界很热。
有一天,我们收到了一封硅谷最大公司的邮件,希望跟我们进行空间智能的合作。当然我们甚至怀疑是骗子。几万亿美元的大公司,怎么会找一家创业公司合作空间智能。但这的确是真的。在合作的过程中,我们发现了这些大公司在解决了算力、算法问题之后,他们面临的问题是,缺少海量的、可交互的、物理正确的三维数据。
我们跟目前全球这个领域最靠前的公司基本都达成了合作。这两年,中国的空间智能、具身智能也爆发式地增长,我们也跟国内头部公司达成了合作。这个时候,我觉得技术奇点到来了,我们的机会也来了。

03

具身智能的世界级难题:数据

我们发现,现在不管是空间智能还是具身智能,有四个最关键的问题需要解决:算法、算力、数据、机器人硬件。
算法层面,目前是百花争鸣的状态,有非常多算法。
算力层面,国外以英伟达为代表,国内也有地平线等公司在快速地解决这个问题。我觉得算力已经过了技术的奇点,可以支撑人造的智慧了。
机器人硬件层面,中国更是独霸全球。
而目前世界级难题的是:如何给机器人提供用来训练的可交互的数据?这就是我们要去解决的。
群核科技联合创始人兼董事长黄晓煌 | 图片来源:极客公园
目前用来训练具身智能的方式,主要有两种
第一种,以斯坦福大学的 Moblile Aloha 为代表,它通过用设备来采集人在物理空间中的动作,来训练机器人。但是它的采集成本非常高,而且空间非常受限。
第二种,也是目前学术界比较火热的,通过仿真数据来做机器人的训练。目前新一代的算法论文都是基于这个逻辑,李飞飞的文章也都是这个逻辑。因为它才真正可以实现在海量的空间里面做物理训练,让机器人能够拥有足够多的适应性。
相比真实的训练环境,仿真训练主要有以下四个巨大的优势
第一,低成本。假如用一个真实的空间训练一个机器人,那么每训练一个场景都要盖一个真实的房间,那这个成本实在太高了。
第二,高效率。在物理世界里,时空是确定的。如果训练一个机器人需要 1 天,那么训练 1 万次就得 1 万天,时间没有办法压缩。但在数字世界里,时间是可以被压缩的,物理世界里要用 1 万天跑完的数据,数字世界里也许 1 天就可以跑完。
第三,多样性。在现实世界里面,要找到各种各样不同场景是非常困难的。如果我们想训练一个机器人去火星上帮人类干活,但没有办法先把一堆设备送到火星上去提前训练。合成数据解决了多样性问题。
第四,可泛化性。李飞飞发表的文章里提到了「数字表亲」的概念,可以生产类似的场景进行训练,从而实现举一反三。否则我们训练出来的机器人只能在一模一样的房间里干活,离开了那个房间,还是啥都不会。
相比真实场景,仿真数据用于具身智能训练拥有诸多优势 | 图片来源:极客公园
那么,群核科技的核心优势是什么?我们为什么能一起参与这个有意思的征程呢?
我们通过多年的 3D 云设计平台,积累了海量数据,用这些数据训练了自己 CAD 的大模型。这些大模型可以阅读人类的 CAD 文件、图片、手绘等,然后把这些内容再转换成物理正确的空间场景。我们也自建了 1 万多台高性能计算服务器,专门用来训练、推理、渲染。我们希望用物理正确的合成数据,来帮助所有具身智能的机器实现训练。
今年,我们推出了新版本的 SpatialVerse 来赋能 AI 空间智能。因为传统的三维数据太「干净」了,没有办法直接用来训练机器人。我们需要 AI 对这些原始的数据进行物理增强:告诉机器人哪里是抽屉可以打开,可以打开多少程度;物体的重力是多少;哪里是门可以打开,是往里开还是往外开等等。
其次,在机器人训练的时候需要有各种语义信息在里面,过去都是人工标注,现在要用 AI 给它自动标注好。
另外,环境加强也很重要。我们平常人生活的环境不是像 3D 世界里面那么纯净的,包括你的房间里面有纸巾、有动物的毛发等,但是在数字世界里没有,你要把它以某种方式加回去,让一个空间不是一个纯净的空间,它需要更接近于真实的空间。
最后是隐私问题。前阵子全球最著名的公司之一被曝出在采集物理数据的时候,不小心拍到了房屋主人上厕所的视频。合成数据就没有这个问题,它不会涉及到人类隐私的问题。
我们今年和上海人工智能实验室一起发布了具身智能训练的新范式,多模态的 3D 数据解决方案,就是大规模的动态场景生成,渲染+物理真实感以及高分辨率的场景分割。这里面的空间场景都是基于我们 SpatialVerse 的解决方案。
具身智能未来将进入更多场景中 | 图片来源:极客公园
我以上展示的这些肯定不是空间智能、具身智能的全部,它只是开始。具身智能还会进入到我们更多的场景,除了在我们工厂里面工作,还会进入到我们的商业空间里、办公室里,家庭里。未来,我们的生活场景里面会充满了空间智能、具身智能的机器人。
当然,所有的使用场景都需要丰富的物理正确的三维数据给它们训练,因为大家不希望一个没有训练过的机器人在你家里面。一个 300 公斤重的机器人,万一发起疯来,谁都受不了,所以我们得确保它在足够多的空间里训练过,才能够进入到我们工作生活的环境里,这是非常重要的。
我相信未来肯定是具身智能、空间智能的时代,我相信从生产制造再到商业空间再到我们家庭场景,它会充斥到我们每一个角落,就像叠被子那一刻被机器人完美地解决了之后,机器人就会解决我们日常生活中各种各样所需要的问题,我也希望群核科技能够成为中间重要的推力之一。
欢迎各位小伙伴跟群核一起走向技术的彼岸。

*头图来源:极客公园
本文为极客公园原创文章,转载请联系极客君微信 geekparkGO


直播预告


👀想看国际最先进水平的 AI 公司如何看待 AI 吗?🔥想看最火的机器人公司怎么展望未来吗?🤖想看最有调性的科技公司怎么在这个时代做产品吗?🥰好险!差点就错过他们的分享了!

12 月 19 日(周四) 13:30,极客公园创新大会 2025 直播进行时!锁定视频号直播间,2025 年科技趋势全部都有!





 

更多阅读



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/177135
 
56 次点击