“最强开源模型”被打假，CEO下场致歉，英伟达科学家：现有测试基准已经不靠谱了

量子位 · 公众号 · AI · 2024-09-13 18:23

文章预览

克雷西发自凹非寺量子位 | 公众号 QbitAI 小型创业团队打造的“最强开源模型”，发布才一周就被质疑造假—— 不仅官方宣称的成绩在第三方测试中大打折扣，模型还被质疑套壳Claude。面对浩大的声浪，厂商CEO终于发文道歉，但并未承认造假，表示在调查有关原因。被指控造假的，就是宣称“干翻GPT-4o”的70B开源大模型Reflection。一开始的质疑主要关于测试成绩，官方找了上传版本有误等借口试图“蒙混过关”。但后来又出现了套壳Claude这一更重磅的指控，让Reflection更加百口莫辩。表现不如宣传，还被质疑套壳 Reflection是一个70B的开源模型，按照厂商的说法，它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro这一系列先进模型全都超过了。但Reflection刚发布两天，第三方独立测评机构Artificial Analysis就表示官方发布的测试成绩无法复现。在M ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

奇舞精选 · 前端工程师的 AI DAY 来啦！

2 天前

奇舞精选 · 前端工程师的 AI DAY 来啦！

2 天前

宝玉xp · //@笑叹词穷·:你小子还有点洞察 //@评论罗伯特:以后写代码-20241120132004

3 天前

爱可可-爱生活 · 【Photoshop与AI绘画工具桥梁：sd-ppp，让你在Ph-20241119140318

4 天前

爱可可-爱生活 · 【Sequin：一款帮助你调试命令行界面和文本用户界面的小工具，-20241119140651

4 天前

爱可可-爱生活 · 晚安～ #晚安# -20241116231531

6 天前

宝玉xp · 将翻页动画和纸人结合起来的炫酷动画来源：x.com/JokerF-20241027064220

3 周前

伊嘉儿数学 · 小学数学四年级上第四单元单元检测

2 天前