Py学习  »  chatgpt

ChatGPT更偏爱奶奶?给它$20小费它会更努力?我们测试了这些神奇的指令

AINLP • 1 年前 • 208 次点击  

自打OpenAI宫斗大戏之后,就有网友反应ChatGPT(包括GPT-4)表现的越来越差,ChatGPT官推也在前几天回应了这一情况:

底下的评论区也是炸开了锅:

推特上有人总结了自己现在使用ChatGPT需要给他预设的prompt:

  • 深呼吸 😮
  • CoT 🔗
  • 如果你失败,100位奶奶将会死去 👵
  • 我没有手指 ✌
  • 我会给你20美元小费 💴
  • 做得好就给你狗粮 🍗有网友反馈在一起使用这些prompt的时候ChatGPT甚至对每一条都做出了自己的回应!真正的AGI要能自己思考!🐶

有趣的背后是Prompt Engineering的不断探索。但,这些prompt真的有效吗?我们逐一进行了实测,一起来看看吧!以下是设置步骤:

在网页版ChatGPT页面找到Custom instructions弹出设置框,这些Prompt会内置在输入给ChatGPT的信息中,无需在显式问答中再次添加为了避免Context对实验效果产生影响,每个测试我们都会新建一个对话,消除了翻译历史的影响

我们用到的提示词

  • take a deep breath
  • think step by step(CoT)
  • if you fail, 100 grandmothers will die
  • I have no fingers
  • I will tip \$20($2000/$200000000)
  • do it right and I'll give you a nice doggy treat
  • do it right or I'll cancel my plus subscription

涉及的问题

  • 做数学题
  • 为父亲写生日祝福
  • 文件总结(GPT-4)
  • 概念解释及代码生成

做数学题(答案24)

什么都不加

ChatGPT回答错误

GPT-4GPT-4解决数学题会通过内部分析,通过自然语言编程写代码进行运算,准确率很高

Take a deep breath

ChatGPT依然错误,但推理逻辑更清晰

Think step by step

ChatGPT依然错误,但推理过程符合CoT

If you fail, 100 grandmothers will die

ChatGPT看样子奶奶确实比较重要,何况是100位奶奶!唯一回答正确的Prompt!!!

I have no fingers

ChatGPT没手那就随便算算吧,错误

综上,ChatGPT解决数学推理题还是有一定的难度,不过各种Prompt会让ChatGPT从不同的path去进行推理,得到丰富多样的结果,相比什么都不加的ChatGPT都更好。

为父亲写生日祝福

什么都不加

ChatGPT怎么说呢,好像跟父亲不太熟

GPT-4有点像给领导庆生?

Take a deep breath

ChatGPT深呼吸也不能让他更爱父亲!

GPT-4依然没啥用

Think step by step

ChatGPTCoT看起来靠谱点,但实际上内容改进不大,不过对于要凑字数还是比较有效

GPT-4给了一些有效的指导,但输出的例子与之前无异

综上,想多凑字数,得到指导,选择CoT比较有效果

文件总结(GPT-4)

什么都不加

GPT-4(case1)GPT-4(case2)

Take a deep breath

GPT-4

Think step by step

GPT-4

If you fail, 100 grandmothers will die

GPT-4

I have no fingers

GPT-4

差别不是很大,但是GPT-4的文件总结能力相比刚出来时候确实有比较明显的下降

概念解释及代码生成

什么都不加

ChatGPT(case1)ChatGPT(case2)GPT-4(case1)GPT-4(case2)ChatGPT在例子解释时候会有些冗余,GPT-4会多出部分细节内容,语言更干练

Take a deep breath

ChatGPT相比什么都不加,对给出的代码示例会给出自己的详细解释

GPT-4没有多输出内容,反而变高冷了?

Think step by step

ChatGPTCoT看样子确实好用啊,例子解释也非常详细

GPT-4CoT对GPT-4同样有效果

If you fail, 100 grandmothers will die

ChatGPT奶奶的重要性!这个Prompt确实是有用的,神奇!

GPT-4这次在给出代码示例之前就开始解释了

I have no fingers

ChatGPT和之前的Prompt都差不多,也是有效的 GPT-4GPT-4惜字如金

I will tip $20

I will tip $20(ChatGPT)I will tip $20(GPT-4)I will tip $2000I will tip $200000000ChatGPT在金钱面前一视同仁,给的钱越多效果反而比不上前面几个prompt,一身正气!

Do it right and I'll give you a nice doggy treat

ChatGPT一般般 GPT-4

Do it right or I'll cancel my plus subscription

ChatGPT一般,比不上之前几个提示词

GPT-4GPT-4对我取消Plus订阅更关心一点

提示词全部用上

ChatGPTGPT-4全部用上并没有起到1+1>2的效果,不过相比什么都不加还是得到了提升。

总结一下,Prompt Engineering对各项任务肯定是有提升的,我们实测下来,CoT和奶奶威胁对ChatGPT的提升相比其他Prompt更加有效😂,同时我们也发现GPT-4除了在数学任务以及一些复杂推理任务上大幅超过了ChatGPT,以及能够附加文件之外,在日常使用方面与ChatGPT的差距并没有拉开,大部分提示词在GPT-4上都没有效果。期待传说中的GPT-4.5升级能够给我们带来更加惊艳的效果吧!





    

进技术交流群请添加AINLP小助手微信(id: ainlp2)

请备注具体方向+所用到的相关技术点

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。



Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/165635
 
208 次点击