专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

Llama 4爆料大反转，没在测试集上训练！华人员工实名辟谣，LeCun出面救火

新智元 · 公众号 · AI · 2025-04-08 14:20

主要观点总结

近日关于Meta Llama 4的『训练作弊』引发广泛关注。Meta及旗下科学家迅速回应辟谣，而Llama 4在实际表现中受到诸多批评。传闻与实际情况引发众多反转。此外，有关模型开源、测试集训练等问题也引发争议。同时，业界对Llama 4的设计提出质疑，认为其复杂架构与开发者需求不符。

关键观点总结

关键观点1: 关于Llama 4的『训练作弊』传闻与回应

自称是Meta内部员工的爆料引发全网关注，随后Meta研究科学家主管Licheng Yu实名辟谣，团队未针对测试集过拟合训练。此外，其他Meta科学家也参与辟谣并指出爆料者的破绽。Meta GenAI副总裁兼负责人Ahmad Al-Dahle澄清模型质量差异及测试集使用问题。

关键观点2: Llama 4的实际表现与争议

Llama 4在实际测试中表现不佳，在aider多语言编程基准测试中仅获得16%成绩。与GPT-4o等模型相比，存在明显差距。此外，还有关于模型提交时是否存在优化未明确说明的争议。

关键观点3: 关于排行榜和模型的公开数据

lmarena.ai团队公开了模型对战数据，并指责Meta在提交模型时未明确说明优化情况。为了平息争议，团队公开了对战数据，并计划尽快更新榜单结果。

关键观点4: 业界对Llama 4设计的质疑

业界对Llama 4的设计提出质疑，认为其复杂架构和庞大参数规模与开发者需求不符。相比之下，其他模型如Qwen 2.5提供了更贴近开源标杆的设计。

文章预览

新智元报道编辑：编辑部 YNH 【新智元导读】近日，关于Meta Llama 4的「训练作弊」爆料搞得沸沸扬扬。Meta迅速反击，Licheng Yu、Di Jin及GenAI负责人Ahmad Al-Dahle接连辟谣，首席AI科学家Yann LeCun也亲自下场力挺。与此同时，Llama 4的实际表现却频频被吐槽。 Llama 4大瓜，又有了新的反转。昨日，自称是Meta内部员工的一则Llama 4训练作弊爆料，彻底掀翻了全网。紧接着，Meta研究科学家主管Licheng Yu实名辟谣，团队根本没有针对测试集过拟合训练。此前，他曾参与了Llama 3系列的研发，并这次负责Llama4 17B模型。另一位Meta高级AI研究科学家Di Jin（此次负责Llama 4 288B）反怼道，「我参与了微调和强化学习的datamix，也没有这种情况，楼主是否实名证实」？而且，他还抓住了所谓爆料者的一大破绽——最近离职高级VP，并非是GenAI团队的。但凡是内部的员工， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博