文章预览
时隔三个月 Anthropic 公司在6月20号又发布了最新的大模型Claude3.5 Sonnet,各项参数已经碾压了GPT4o,网友们都为OpenAI 着急,喊话让ChatGPT5早点出来。 Anthropic 是由OpenAI分裂出去的兄弟公司, 新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型,同时其运行速度是Claude 3 Opus的两倍。 第一列参数代表不同测试领域或任务的名称,这些任务用于评估各个模型的性能。具体来说,这些测试任务及其含义如下: Graduate level reasoning (GPQA, Diamond) :测试模型在研究生水平的推理能力。 Undergraduate level knowledge (MMLU) :评估模型对本科水平知识的掌握程度。 Code (HumanEval) :测试模型生成和理解代码的能力。 Multilingual math (MGSM) :评估模型在多语言数学题目上的表现。 Reasoning over text (DROP, F1 score) :测试模型在阅读理解和文本推理上的能力。 Mixed
………………………………