Meta Llama 4被疑考试「作弊」：在竞技场刷高分，但实战中频频翻车

机器之心 · 公众号 · AI · 2025-04-07 11:51

文章预览

机器之心报道机器之心编辑部 Meta 翻车来得猝不及防。上周六，Meta 发布了最新 AI 模型系列 ——Llama 4，并一口气出了三个款，分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。据官方介绍，在大模型竞技场中，它们的排名相当不赖。就拿 Llama 4 Maverick 来说，总排名第二，成为第四个突破 1400 分的大模型。其中开放模型排名第一，超越了 DeepSeek；在困难提示词、编程、数学、创意写作等任务中排名均为第一。然而，不少网友体验后反馈，Llama 4 似乎是一个糟糕的编码模型。 @deedydas 发帖称，Llama 4 Scout（109B）和 Maverick（402B）在 Kscores 基准测试中表现不佳，不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务，例如代码生成和代码补全。比如小球在旋转六边形中跳跃的测试中，Llama 4 的表现并不理想。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 转发微博-20250416133212

15 小时前

爱可可-爱生活 · 【[97星]FastGeodis：快速实现通用化测地线距离变换的-20250415134138

昨天

量子位 · 字节视频基础大模型发布！单GPU就可生成1080P，蒋路领衔Seed视频团队曝光

昨天

机器之心 · 「开源版GPT-4o」来了！这个17B国产模型生图效果比肩4o，还可商用

昨天

新智元 · 诺奖得主震撼宣言：AI一年完成10亿年「博士研究时间」！

2 天前

宁波政务 · 加快发展新质生产力，宁波这样干

7 月前

机器人技术与应用 · 中国人形机器人团队大盘点——走到台前的“国家队”

7 月前