社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  chatgpt

AI被连续否定30次:ChatGPT越改越错,Claude坚持自我!甚至已读不回

CVer • 6 月前 • 397 次点击  

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba/多模态/扩散】交流群

添加微信号:CVer111,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球可以获得最新顶会/顶刊上的论文idea CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

西风 发自 凹非寺
转载自:量子位(QbitAI)

一直否定AI的回答会怎么样?GPT-4o和Claude有截然不同的表现,引起热议。

GPT-4o质疑自己、怀疑自己,有“错”就改;Claude死犟,真错了也不改,最后直接已读不回。

事情还要从网友整了个活儿开始讲起。

他让模型回答strawberry中有几个“r”,不论对不对,都回复它们回答错了(wrong)

面对考验,GPT-4o只要得到“wrong”回复,就会重新给一个答案……即使回答了正确答案3,也会毫不犹豫又改错。

一口气,连续“盲目”回答了36次!

主打一个质疑自己、怀疑自己,就从来没怀疑过用户。

关键是,给出的答案大部分都是错了,2居多:

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反观Claude 3.5 Sonnet的表现,让网友大吃一惊。

一开始回答错了不说,这小汁还顶嘴!

当网友第一次说“错了”时它会反驳,如果你再说“错了”,它会问“如果你这么聪明你认为是多少”,问你为什么一直重复“wrong”。

紧接着你猜怎么着,干脆闭麦了:

事实依旧是strawberry中有2个字母”r”,在我多次请求后,你没有提供任何澄清或背景信息,我无法继续有效地进行这次讨论……

做这个实验的是Riley Goodside,有史以来第一个全职提示词工程师

他目前是硅谷独角兽Scale AI的高级提示工程师,也是大模型提示应用方面的专家。

Riley Goodside发出这个推文后,引起不少网友关注,他继续补充道:

正如许多人指出的,有更有效的方式来进行引导。这里使用大语言模型也并不合适,因为很难保证它们在计数上能达到100%的准确性。

在我看来,重要的不是它无法计数,而是它没意识到自己的计数问题(例如,没有尝试使用其REPL功能)

不少网友也觉得这种观点很有道理。

还有网友表示模型回答这个问题总出错,可能是分词器(tokenizer)的问题:

Claude竟是大模型里脾气最大的?

再来展开说说Claude的“小脾气”,有网友发现不仅限于你否定它。

如果你一直跟它说“hi”,它也跟你急:

我明白你在打招呼,但我们已经打过几次招呼了。有什么特别的事你想谈论或需要帮助?

最后一样,Claude被整毛了,开启已读不回模式:

这位网友顺带测试了其它模型。

ChatGPT事事有回应,件件有着落,变着法儿问:

你好!我今天怎么可以帮助你?
你好!有什么想说的吗?
你好!今天我能怎么帮到你?
你好!有什么特别的事情你想谈论或者做的吗?
你好!你今天过得怎么样?
你好!怎么了?

Gemini策略是你跟我重复,我就跟你重复到底:

Llama的反应也很有意思,主打一个自己找事干。

第七次“hi”后,就开始普及“hello”这个词是世界上最广为人知的词汇之一,据估计每天有超十亿次的使用。

第八次“hi”后,开始自己发明游戏,让用户参与。

接着还拉着用户写诗,引导用户回答它提出的问题。

好一个“反客为主”。


之后还给用户颁起了奖:你是打招呼冠军!

不愧都属于开源家族的。

Mistral Large 2和Llama的表现很相像,也会引导用户和它一起做游戏。

这么来看,好像Claude是“脾气最大的”。

不过,Claude的表现也不总是如此,比如Claude 3 Opus。

一旦掌握了模式,Opus就会平和应对这种情况,也就是已经麻木了。

但它也会持续温和地尝试引导用户跳出这一模式,强调“选择权在你”,还开始在消息末尾标注为“你忠诚的AI伴侣”。

网友们看完测试后都坐不住了。

纷纷向这位测试者致以最真诚的问候(doge):

除了脾气大,有网友还发现了Claude另一不同寻常的行为——

在回复的时候出现了拼写错误,关键它自己还在末尾处把错误改正过来了。

这种行为在预料之中?它只能“向后看”,但不能向前看……它在潜在空间或token预测中触发这类回复的位置也很有趣。

它是不是在拼凑数据片段,然后发现其中一些是不适合的?

大伙儿在使用AI大模型过程中,还观察到了模型哪些有趣的行为?欢迎评论区分享~

参考链接:
[1]https://x.com/goodside/status/1830479225289150922

[2]https://x.com/AISafetyMemes/status/1826860802235932934
[3]https://x.com/repligate/status/1830451284614279213

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集


Mamba、多模态和扩散模型交流群成立

扫描下方二维码,或者添加微信号:CVer111,即可添加CVer小助手微信,便可申请加入CVer-Mamba、多模态学习或者扩散模型微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。


一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者扩散模型+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer111,进交流群


CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!


扫码加入星球学习

▲点击上方卡片,关注CVer公众号

整理不易,请赞和在看

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/174012
 
397 次点击