文章预览
「开源新王」Reflection 70B,才发布一个月就跌落神坛了? 9月5日,Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息—— 用Meta的开源Llama 3.1-70B,团队微调出了Reflection 70B。它的基准测试结果惊人,可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下,直接登顶「世界开源新王」! 结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。 无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。 根据Artificial Analysis的数据,Reflection 70B在基准测试中的表现,竟然还不如原始版的Llama 3.1 70B。 随后,开发者们甚至还发现,Reflection可能就是个「套壳」模型,而且还是连套三家的那种(Claude/GPT/Llama)。 这下子,Reddit和X等平台上,立刻掀起了质疑的声浪。 左右滑动查看 为此,Shumer承诺将和Glaive
………………………………