专栏名称: AIGC挖掘机

博主喜欢AI，Web3相关前沿内容，喜欢分享和折腾技术，也专注AI时代的创业与副业研究，目前在一线城市小厂工作，全干工程师，这里是他灵感的发源地，经常有一些奇思妙想。工作之余会分享一些相关的热门资讯，实践教程，稀缺资源。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

新皇登基，Claude3.5 Sonnet强势登场，性能超越GPT-4o，价格更具优势！

AIGC挖掘机 · 公众号 · · 2024-06-23 23:39

文章预览

时隔三个月 Anthropic 公司在6月20号又发布了最新的大模型Claude3.5 Sonnet，各项参数已经碾压了GPT4o，网友们都为OpenAI 着急，喊话让ChatGPT5早点出来。 Anthropic 是由OpenAI分裂出去的兄弟公司，新模型在推理、知识和编码能力评估方面超越了以前的版本和竞争对手GPT 4o模型，同时其运行速度是Claude 3 Opus的两倍。第一列参数代表不同测试领域或任务的名称，这些任务用于评估各个模型的性能。具体来说，这些测试任务及其含义如下： Graduate level reasoning (GPQA, Diamond) ：测试模型在研究生水平的推理能力。 Undergraduate level knowledge (MMLU) ：评估模型对本科水平知识的掌握程度。 Code (HumanEval) ：测试模型生成和理解代码的能力。 Multilingual math (MGSM) ：评估模型在多语言数学题目上的表现。 Reasoning over text (DROP, F1 score) ：测试模型在阅读理解和文本推理上的能力。 Mixed ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博