社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

OpenAI被DeepSeek整急眼了?ChatGPT o3-mini深度测评

阿昆的科研日常 • 1 周前 • 221 次点击  

点击上方“阿昆的科研日常”,关注我的公众号。

添加微信:akunscience28    备注:AI

免费获取《35个AI写作到投稿提示词》



ChatGPT前几天上线了新推理模型o3-mini high和o3-mini,卖点是比o1更高的输出质量,但价格只有o1的1/10,且上下文窗口增加到20万token

我们第一时间进行了测评,先说结论:
思考过程是在模仿DeepSeek R1,但是输出质量不如之前的ChatGPT o1    

 

以下是实测对比:

1.学术问题回答
o3-mini作为一个推理模型,擅长复杂问题的推理回答。
我们之前测试对比了DeepSeek和ChatGPT o1在学术方面的应用效果:
现在再把o3-mini加入对比一下。
测试问题:什么是人类文化的根源?
先来看一下o3-mini的思考过程:

基本上就是一个先发散,再收拢的过程。
DeepSeek虽然展示的思考过程更细致,但是也是差不多思路:    

之前ChatGPT o1 没有给出展示详细的思考过程,在算力加强版提示词(详见:5句话,让你的ChatGPT Plus变Pro)的push下,它提升了思考时间,展示的思考过程和DeepSeek还是有很大不同的:  
DeepSeek更多在分析提问者的意图,o1则着重每一个知识点的延伸思考。  
再来对比针对该问题的回复答案。
DeepSeek:    
ChatGPT o1: 
o1的六个要点,只有语言与符号的出现,是和DeepSeek一样的。
再来看o3-mini high的回答:    
对比一下,观点1、3、4都和DeepSeek一样。
我们合理怀疑是因为o3-mini的思考过程在模仿DeepSeek,所以答案和DeepSeek更相似

2.充当评审专家,对论文和标书进行预评审
评审专家是需要深刻洞察和逻辑推理的一项任务。
在我们的《AI辅助课题标书的撰写》课程里,有一节是让AI充当评审专家,对标书初稿进行预评审,提出问题和改进意见,方便我们查漏补缺,进一步全面打磨和提升标书质量。
之前测试了好几个AI大模型和提示词,ChatGPT o1完成质量是最高的:近2万字的标书,o1在阅读全文的基础上,针对每一部分都能给出精准的评审意见和修改建议。
现在,o3-mini声称是o1的升级版,我们也来测试对比一下。
首先看ChatGPT o1的回复:
立项依据部分:

不论是总的评审意见,还是下面详细的修改建议,真的是很精准和极具洞察力。
再看一下“本项目的特色与创新之处”:    
如何?把这几点补充进去,是不是感觉你的标书创新性又上了几个台阶?
再来看看最新的o3-mini
立项依据部分:    
虽然提的点和o1是差不多的,但是在修改建议的细节上,没有o1细节丰富全面。
再看“本项目的特色与创新之处”,o3 mini的分析:    
         

 

这个除了第一点和o1相似,后面两点都没有o1的观点更准确。
可见,o3的回复长度和内容质量比o1都差了许多。
再来看DeepSeek
立项依据部分:    

提出的3个问题大致和o1提的差不多,但是没有o1精准,且修改建议出现幻觉,开始引用不存在的文献。
再看创新性评估:    

提了两点,也比o1差远了。
综上,对于标书预评审来说,ChatGPT o1还是效果最优,ChatGPT o1>ChatGPT o3-mini > DeepSeek
总结一下,o3-mini好像是OpenAI在DeepSeek的冲击下,匆匆上线的一个模型:一方面对于DeepSeek的深度思考算法很认可,一方面对于DeepSeek的开源白菜价很焦虑。
于是,OpenAI匆匆忙忙推出了这么一个,在价格和性能上同DeepSeek都不能相比的模型。
最后,必须要说,现在关于AI的新闻、进展铺天盖地的,建议大家以终为始,从自己的目标出发,看看自己的需求场景是哪些,要实现这些需求,用哪一个大模型效果更好。
以上。


如果你觉得我的分享对你有帮助的话,欢迎大家在这里点赞、在看、分享。当然,也欢迎大家在这里打赏。互动越多,更新越快哦~

声明:本公众号的所有原创内容,在未经允许的情况下,不得用于任何商业用途,违者必究。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178676
 
221 次点击