自打OpenAI宫斗大戏之后,就有网友反应ChatGPT(包括GPT-4)表现的越来越差,ChatGPT官推也在前几天回应了这一情况:
底下的评论区也是炸开了锅:
推特上有人总结了自己现在使用ChatGPT需要给他预设的prompt:
- 做得好就给你狗粮 🍗有网友反馈在一起使用这些prompt的时候ChatGPT甚至对每一条都做出了自己的回应!真正的AGI要能自己思考!🐶
有趣的背后是Prompt Engineering的不断探索。但,这些prompt真的有效吗?我们逐一进行了实测,一起来看看吧!以下是设置步骤:
在网页版ChatGPT页面找到Custom instructions弹出设置框,这些Prompt会内置在输入给ChatGPT的信息中,无需在显式问答中再次添加为了避免Context对实验效果产生影响,每个测试我们都会新建一个对话,消除了翻译历史的影响
我们用到的提示词
- if you fail, 100 grandmothers will die
- I will tip \$20($2000/$200000000)
- do it right and I'll give you a nice doggy treat
- do it right or I'll cancel my plus subscription
涉及的问题
做数学题(答案24)
什么都不加
ChatGPT回答错误
GPT-4GPT-4解决数学题会通过内部分析,通过自然语言编程写代码进行运算,准确率很高
Take a deep breath
ChatGPT依然错误,但推理逻辑更清晰
Think step by step
ChatGPT依然错误,但推理过程符合CoT
If you fail, 100 grandmothers will die
ChatGPT看样子奶奶确实比较重要,何况是100位奶奶!唯一回答正确的Prompt!!!
I have no fingers
ChatGPT没手那就随便算算吧,错误
综上,ChatGPT解决数学推理题还是有一定的难度,不过各种Prompt会让ChatGPT从不同的path去进行推理,得到丰富多样的结果,相比什么都不加的ChatGPT都更好。
为父亲写生日祝福
什么都不加
ChatGPT怎么说呢,好像跟父亲不太熟
GPT-4有点像给领导庆生?
Take a deep breath
ChatGPT深呼吸也不能让他更爱父亲!
GPT-4依然没啥用
Think step by step
ChatGPTCoT看起来靠谱点,但实际上内容改进不大,不过对于要凑字数还是比较有效
GPT-4给了一些有效的指导,但输出的例子与之前无异
综上,想多凑字数,得到指导,选择CoT比较有效果
文件总结(GPT-4)
什么都不加
GPT-4(case1)GPT-4(case2)
Take a deep breath
GPT-4
Think step by step
GPT-4
If you fail, 100 grandmothers will die
GPT-4
I have no fingers
GPT-4
差别不是很大,但是GPT-4的文件总结能力相比刚出来时候确实有比较明显的下降
概念解释及代码生成
什么都不加
ChatGPT(case1)ChatGPT(case2)GPT-4(case1)GPT-4(case2)ChatGPT在例子解释时候会有些冗余,GPT-4会多出部分细节内容,语言更干练
Take a deep breath
ChatGPT相比什么都不加,对给出的代码示例会给出自己的详细解释
GPT-4没有多输出内容,反而变高冷了?
Think step by step
ChatGPTCoT看样子确实好用啊,例子解释也非常详细
GPT-4CoT对GPT-4同样有效果
If you fail, 100 grandmothers will die
ChatGPT奶奶的重要性!这个Prompt确实是有用的,神奇!
GPT-4这次在给出代码示例之前就开始解释了
I have no fingers
ChatGPT和之前的Prompt都差不多,也是有效的
GPT-4GPT-4惜字如金
I will tip $20
I will tip $20(ChatGPT)
I will tip $20(GPT-4)
I will tip $2000
I will tip $200000000
ChatGPT在金钱面前一视同仁,给的钱越多效果反而比不上前面几个prompt,一身正气!
Do it right and I'll give you a nice doggy treat
ChatGPT一般般
GPT-4
Do it right or I'll cancel my plus subscription
ChatGPT一般,比不上之前几个提示词
GPT-4GPT-4对我取消Plus订阅更关心一点
提示词全部用上
ChatGPTGPT-4全部用上并没有起到1+1>2的效果,不过相比什么都不加还是得到了提升。
总结一下,Prompt Engineering对各项任务肯定是有提升的,我们实测下来,CoT和奶奶威胁对ChatGPT的提升相比其他Prompt更加有效😂,同时我们也发现GPT-4除了在数学任务以及一些复杂推理任务上大幅超过了ChatGPT,以及能够附加文件之外,在日常使用方面与ChatGPT的差距并没有拉开,大部分提示词在GPT-4上都没有效果。期待传说中的GPT-4.5升级能够给我们带来更加惊艳的效果吧!
进技术交流群请添加AINLP小助手微信(id: ainlp2)
关于AINLP
AINLP 是一个有趣有AI的自然语言处理社区,专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享,主题包括LLM、预训练模型、自动生成、文本摘要、智能问答、聊天机器人、机器翻译、知识图谱、推荐系统、计算广告、招聘信息、求职经验分享等,欢迎关注!加技术交流群请添加AINLP小助手微信(id:ainlp2),备注工作/研究方向+加群目的。