专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

“最强开源模型”被打假,CEO下场致歉,英伟达科学家:现有测试基准已经不靠谱了

量子位  · 公众号  · AI  · 2024-09-13 18:23

文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 小型创业团队打造的“最强开源模型”,发布才一周就被质疑造假—— 不仅官方宣称的成绩在第三方测试中大打折扣,模型还被质疑套壳Claude。 面对浩大的声浪,厂商CEO终于发文道歉,但并未承认造假,表示在调查有关原因。 被指控造假的,就是宣称“干翻GPT-4o”的70B开源大模型Reflection。 一开始的质疑主要关于测试成绩,官方找了上传版本有误等借口试图“蒙混过关”。 但后来又出现了套壳Claude这一更重磅的指控,让Reflection更加百口莫辩。 表现不如宣传,还被质疑套壳 Reflection是一个70B的开源模型,按照厂商的说法,它一下子把Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro这一系列先进模型全都超过了。 但Reflection刚发布两天,第三方独立测评机构Artificial Analysis就表示官方发布的测试成绩无法复现。 在M ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览