专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

Meta Llama 4被疑考试「作弊」:在竞技场刷高分,但实战中频频翻车

机器之心  · 公众号  · AI  · 2025-04-07 11:51
    

文章预览

机器之心报道 机器之心编辑部 Meta 翻车来得猝不及防。 上周六,Meta 发布了最新 AI 模型系列 ——Llama 4,并一口气出了三个款,分别是 Llama 4 Scout、Llama 4 Maverick 和 Llama 4 Behemoth。 据官方介绍,在大模型竞技场中,它们的排名相当不赖。 就拿 Llama 4 Maverick 来说,总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一。 然而,不少网友体验后反馈,Llama 4 似乎是一个糟糕的编码模型。 @deedydas 发帖称,Llama 4 Scout(109B)和 Maverick(402B)在 Kscores 基准测试中表现不佳,不如 GPT-4o、Gemini Flash、Grok 3、DeepSeek V3 以及 Sonnet 3.5/7 等模型。而 Kscores 基准测试专注于编程任务,例如代码生成和代码补全。 比如小球在旋转六边形中跳跃的测试中,Llama 4 的表现并不理想。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览