「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

机器学习研究组订阅 · 公众号 · AI · 2024-10-07 19:28

文章预览

「开源新王」Reflection 70B，才发布一个月就跌落神坛了？ 9月5日，Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息—— 用Meta的开源Llama 3.1-70B，团队微调出了Reflection 70B。它的基准测试结果惊人，可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下，直接登顶「世界开源新王」！结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Reflection 70B在基准测试中的表现，竟然还不如原始版的Llama 3.1 70B。随后，开发者们甚至还发现，Reflection可能就是个「套壳」模型，而且还是连套三家的那种（Claude/GPT/Llama）。这下子，Reddit和X等平台上，立刻掀起了质疑的声浪。左右滑动查看为此，Shumer承诺将和Glaive ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博