社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

o3-mini 碾压 DeepSeek R1?一个 Python 程序引发近 400 万围观

Python见习室 • 2 天前 • 21 次点击  

👉 欢迎加入小哈的星球,你将获得: 专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17..., 点击查看项目介绍
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2期已完结,演示链接:http://116.62.199.48/;
  • 专栏阅读地址:https://www.quanxiaoha.com/column

截止目前,累计输出 80w+ 字,讲解图 3088+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,Spring Cloud Alibaba 等等,戳我加入学习,解锁全部项目,已有2700+小伙伴加入

转自:机器之心

AI 圈的头条被 DeepSeek 承包了十几天,2 月 1 日,OpenAI 终于坐不住了,推出了全新推理模型系列 o3-mini。不仅首次向免费用户开放了推理模型,而且相比之前的 o1 系列,成本更是降低了 15 倍之多。


OpenAI 也称这是其推理模型系列中最新、最具成本效益的模型:


刚刚上线,已经有网友迫不及待的拿它和席卷整个大模型圈的国产大模型 DeepSeek R1 进行对比了。

前段时间,AI 社区开始沉迷用 DeepSeek R1 和其他(推理)模型比拼这个任务:「编写一个 Python 脚本,让一个球在某个形状内弹跳。让该形状缓慢旋转,并确保球停留在形状内。」

这种模拟弹跳球的测试是一个经典的编程挑战。它相当于一个碰撞检测算法,需要模型去识别两个物体(例如一个球和一个形状的侧面)何时发生碰撞。编写不当的算法会出现明显的物理错误。

在 DeepSeek R1 席卷国内外热搜,微软、英伟达、亚马逊等美国云计算平台争先恐后引进 R1 的同时,R1 也在这个任务中完成了对 OpenAI  o1 pro 的碾压。

再看 Claude 3.5 Sonnet 和谷歌的 Gemini 1.5 Pro 的生成结果,DeepSeek 旗下的开源模型高出的确实不只是一个 level。

然而,在 o3-mini 上线后,剧情似乎一夜反转了,比如这个帖子宣称 OpenAI o3-mini 碾压了 DeepSeek R1。目前已引发近 400 万网友围观。

该开发者用的 prompt 是:"write a Python program that shows a ball bouncing inside a spinning hexagon. The ball should be affected by gravity and friction, and it must bounce off the rotating walls realistically"

也就是分别让 o3-mini 和 DeepSeek R1 写一个球在旋转的六边形内弹跳的 python 程序,小球跳动的过程中要遵循重力和摩擦力的影响。最后的展示效果如下:

从效果来看,o3-mini 把碰撞、弹跳效果展示的更好。从对重力和摩擦力的理解来看,DeepSeek R1 版本的小球似乎有点压不住牛顿的棺材板了,完全不受重力控制。

这并非个案,@hyperbolic_labs 联合创始人 Yuchen Jin 在此之前也发现了这个问题,他分别向 DeepSeek R1 和 o3-mini 输入了提示词:write a python script of a ball bouncing inside a tesseract(编写一个 Python 脚本,模拟一个球在四维超立方体内部弹跳)。

四维超立方体的每个顶点与四条棱相邻,每条棱则连接两个立方体。四维空间内的几何图形超出了人类的直观感知范围,所以听着这些描述,我们可能很难想象出一个四维超立方体长什么样子。

而 o3mini 不仅展现出了稳定的几何结构,小球在四维空间内弹跳的运动轨迹也较为灵活,有撞到立方体侧面的打击感。

再来看 DeepSeek R1 这边,它对四维超立方体的形状理解似乎还不够深入透彻。同时,小球在其中的运动轨迹也显得有些诡异,有一种「飘忽不定」的感觉。

据 Yuchen Jin 称,他试了很多次,所有用 DeepSeek R1 尝试都比一次性的 o3-mini 要差,比如下面这次就剩下球了。

机器之心也亲测了一把,同样是 Pass@1 测试,DeepSeek R1 这次是既有球又有几何外框了,甚至小球还会变换颜色色,遗憾的是,它把四维超立方体简化成了三维空间坐标轴。

o3-mini 的表现则有些「买家秀」的意味,明明和 Yuchen Jin 输入的是完全一样的提示词,为什么 o3-mini 就不会了?得不到如上所示的「卖家秀」了呢?

看来,在生成小球在几何外框内跳动的程序这方面,DeepSeek R1 并不是完全是 o3-mini 的手下败将。

AIGC 从业者 @myapdx 用了一个更加复杂的同类提示词来测试 o3-mini 和 DeepSeek R1:编写一个 p5.js 脚本,模拟 100 个彩色小球在一个球体内部弹跳。每个小球都应留下一条逐渐消失的轨迹,显示其最近的路径。容器球体应缓慢旋转。请确保实现适当的碰撞检测,使小球保持在球体内部。

o3-mini 的效果是这样的:

提示词里的这么多项要求:在球体内部弹跳、留下逐渐消失的轨迹、容器缓慢旋转......o3-mini 都完美满足。

而 DeepSeek R1 的效果,好像也没差到哪里去:

至于为什么会出现这样的差异,Yuchen Jin 和 @myapdx 都在帖子中提到,这个任务对模型如何理解真实世界的物理规律有所反应。模型需要综合自己对语言、几何、物理和编程的理解,方能得出最后的模拟结果。从前两轮的结果看来,o3-mini 有可能是物理学得最好的大模型。

与此同时,OpenAI 也在昨天的发布博客中强调过,在博士极科学问题方面 o3-mini-low 的表现优于 o1-mini。o3-mini-high 的表现与 o1 相当,在博士级生物学、化学和物理问题上都有显著进步。

对人类来说,理解小球跳动时的重力和摩擦力并不算困难,但在大语言模型领域,这种对物体物理状态的「世界模型」理解能力,直到最近才真正突破。

还有网友猜测,DeepSeek R1 的程序有时只有一个球,会不会是它想得太多了?
不知是否有读者亲自体验过?欢迎讨论。

👉 欢迎加入小哈的星球,你将获得: 专属的项目实战 / 1v1 提问 / Java 学习路线 / 学习打卡 / 每月赠书 / 社群讨论

  • 新项目:《从零手撸:仿小红书(微服务架构)》 正在持续爆肝中,基于 Spring Cloud Alibaba + Spring Boot 3.x + JDK 17...,  点击查看项目介绍
  • 《从零手撸:前后端分离博客项目(全栈开发)》 2期已完结,演示链接:http://116.62.199.48/;
  • 专栏阅读地址:https://www.quanxiaoha.com/column

截止目前,累计输出 80w+ 字,讲解图 3088+ 张,还在持续爆肝中.. 后续还会上新更多项目,目标是将 Java 领域典型的项目都整一波,如秒杀系统, 在线商城, IM 即时通讯,Spring Cloud Alibaba 等等,戳我加入学习,解锁全部项目,已有2700+小伙伴加入


1. 我的私密学习小圈子,从0到1手撸企业实战项目!

2. OpenAI员工疯狂暗示,内部已成功开发ASI?被曝训出GPT-5但雪藏

3. 在国企和央企当程序员体验,太真实了。。

4. 失业小哥在父母卧室做AI应用,日入2万刀!晒账单爆火全网,AI初创价值3500万

最近面试BAT,整理一份面试资料Java面试BATJ通关手册,覆盖了Java核心技术、JVM、Java并发、SSM、微服务、数据库、数据结构等等。

获取方式:点“在看”,关注公众号并回复 Java 领取,更多内容陆续奉上。

PS:因公众号平台更改了推送规则,如果不想错过内容,记得读完点一下在看,加个星标,这样每次新文章推送才会第一时间出现在你的订阅列表里。

“在看”支持小哈呀,谢谢

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178651
 
21 次点击