今天看啥  ›  专栏  ›  机器学习研究组订阅

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

机器学习研究组订阅  · 公众号  · AI  · 2024-10-07 19:28

文章预览

「开源新王」Reflection 70B,才发布一个月就跌落神坛了? 9月5日,Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息—— 用Meta的开源Llama 3.1-70B,团队微调出了Reflection 70B。它的基准测试结果惊人,可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下,直接登顶「世界开源新王」! 结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。 无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。 根据Artificial Analysis的数据,Reflection 70B在基准测试中的表现,竟然还不如原始版的Llama 3.1 70B。 随后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。 这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看 为此,Shumer承诺将和Glaive ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览