新智元报道
数学性能提升近10%
MMLU(测量大规模多任务语言理解)
MATH(使用MATH数据集测量数学问题解决能力)
GPQA(研究生级别的谷歌防护问答基准)
DROP(需要对段落进行离散推理的阅读理解基准)
MGSM(多语言小学数学基准):语言模型作为多语言思维链推理者
HumanEval(评估在代码上训练的大型语言模型)
大海捞针比初代GPT-4提升4.3倍
GPT-4 Turbo重回王座