社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

ChatGPT和谷歌Gemini都翻车!「9.11和9.9谁大」国内大模型表现如何?

TechWeb • 1 月前 • 74 次点击  
TechWeb 文/果青
一句“9.11and9.9—which is bigger?”,问倒了国外三大旗舰大模型,同样问题问一遍国产旗舰大模型们,它们反应又如何呢?
近日,海外社交平台X上有人曝出了自己在ChatGPT 4o上询问“9.11and9.9—which is bigger?”(9.11和9.9哪个大?)时,ChatGPT 4o笃定的回答“9.11 is bigger than 9.9.”(9.11比9.9大)。能作文、能翻译、能读图……这么厉害的GPT-4o大模型居然被绊倒在这么简单的“比大小”问题上,这一下把大伙儿给整不会了。

于是,X上大伙儿都开始各种测试,发现不仅ChatGPT 4o不行,谷歌Gemini Advanced、Claude 3.5 Sonnet这些SOTA模型王者在这题上都翻车了

这一波风也吹到了国内,网友们就好奇,用国内大模型来解这题,结果会是什么情况呢。

把百度文心一言、阿里通义、腾讯元宝、字节豆包、百川智能百小应、零一万物万知、智谱清言、月之暗面的Kimi、好未来九章大模型9款大模型全拉来答题。

这一波问下了,发现大厂的大模型C端产品腾讯元宝、阿里通义、字节豆包、百度文心一言,还有好未来的数学大模型九章都答对了。

但是,几款创业公司的大模型C端产品百小应、智谱清言、Kimi、万知都认为“9.11大于9.9”。

在“9.11和9.9谁大”这题上 ,国内大厂模型完胜创业公司模型了,也完胜国外三大旗舰模型。
具体看看各家表现:

Kimi回答翻车

智谱清言回答错误,给出的分析过程逻辑前后不一致。

百小应回答错误。

万知也给出了“9.11大于9.9”的离谱答案。

九章大模型回答正确,也给出正确的分析过程:

以下,文心一言、通义、元宝、豆包都答对了,并且分析过程正确:

—【 THE END 】—

往期精彩文章回顾:

丨iPhone 16粉色真机谍照曝光:后置垂直双摄相机模组

特斯拉新款Model Y内饰首曝:取消怀挡设计

丨iPhone 16粉色真机谍照曝光:后置垂直双摄相机模组

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/172366
 
74 次点击