我对各种大语言模型推理能力的评测:
1. GPT-4模型里面,推理效果最好是 gpt-4,其次是 gpt-4-0125-preview,gpt-4-1106-preview 最次。
2. Claude 3 opus 推理能力 不如 GPT-4 和 GPT-4-Turbo。但是 Claude 3 haiku 比 GPT-3.5 强!
3. Gemini 1.5 不如 Claude 3 opus
以上结果仅代表个人观点。以后有机会会补充评测用的 Prompt 和数据。
1. GPT-4模型里面,推理效果最好是 gpt-4,其次是 gpt-4-0125-preview,gpt-4-1106-preview 最次。
2. Claude 3 opus 推理能力 不如 GPT-4 和 GPT-4-Turbo。但是 Claude 3 haiku 比 GPT-3.5 强!
3. Gemini 1.5 不如 Claude 3 opus
以上结果仅代表个人观点。以后有机会会补充评测用的 Prompt 和数据。