【#ChatGPT劲敌长文理解准确率超99%#】当地时间3月4日-20240306201802

2024-03-06 20:18
本条微博链接

【#ChatGPT劲敌长文理解准确率超99%#】当地时间3月4日，美国人工智能初创公司Anthropic发布最新大模型Claude 3系列，该系列包含Claude 3 Opus（著作）、Claude 3 Sonnet （十四行诗）、Claude 3 Haiku（俳句）三个版本。其中，Claude 3 Opus是Anthropic最强大的新模型，在行业基准测试中的表现优于OpenAI的GPT-4和谷歌的Gemini Ultra大模型。这家初创企业过去一年融资五笔，总额约73亿美元，由OpenAI前高级成员创立，获得了谷歌和亚马逊的支持。Anthropic表示，Claude3系列是目前市面上速度最快、性能最好的人工智能模型，在推理、数学、编程、多语言理解和视觉方面树立了新的行业基准。

其中，Claude 3 Opus是Anthropic最强大的新模型，在行业基准测试中的表现优于OpenAI的GPT-4和谷歌的Gemini Ultra大模型，尤其在大规模多任务语言理解数据集（MMLU）、研究生级别的谷歌验证问答基准（GPQA）、数学评测集（GSM8K）、编程多语言测试（HumanEval）等方面均超越了GPT-4和Gemini。

Anthropic在官网公布了Claude 3模型与其他模型在多项性能基准上的比较数据。数据显示，在MMLU上，Claude 3 Opus得到86.8%的得分，而GPT-4得到86.4％。一些差距则较大，例如在编程多语言测试上，Claude 3 Opus得到84.9%的得分，而GPT-4得到67％，这或意味着Claude 3 Opus对于新手学编程的更友好。

此外，Claude 3能够总结高达15万个单词，而ChatGPT只能总结大约3000个单词。用户可以输入大量数据集，并要求Claude 3以备忘录、信件或故事的形式进行总结，这一能力使得Claude 3在处理长文本方面超过ChatGPT。其中，Claude 3 Opus对于长文的语境理解准确率超99%，“在某些情况下甚至能识别出有哪些词句是人为插入到原始文本中的。”Anthropic在官网提到。（澎湃新闻）