专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

「世界开源新王」跌落神坛?重测跑分暴跌实锤造假,2人团队光速「滑跪」

新智元  · 公众号  · AI  · 2024-10-07 13:09

主要观点总结

文章主要介绍了开源新王Reflection 70B被质疑作弊的事件。发布后被质疑数据造假,套壳其他模型等争议。负责人Sahil Chaudhary和Matt Shumer对此进行了复盘并公开道歉。文章还介绍了模型开发过程、发布情况、网友质疑和最终回应等内容。

关键观点总结

关键观点1: Reflection 70B模型的争议

Reflection 70B模型被质疑数据造假,套壳其他模型(如Claude、GPT等),其基准测试结果无法复现。

关键观点2: Sahil Chaudhary和Matt Shumer的复盘和回应

负责人Sahil Chaudhary和Matt Shumer对事件进行了复盘,并公开道歉。他们承认在模型开发和发布过程中存在疏忽和不当行为,并提供了模型权重、训练数据、训练脚本和评估代码以便公众复现。

关键观点3: 模型的发布和验证问题

模型发布时未经过充分的验证,导致出现一系列问题。网友质疑模型的表现和基准测试结果的可靠性。

关键观点4: 模型的训练和开发过程

Sahil Chaudhary介绍了模型的训练和开发过程,包括使用Llama 3.1作为基础模型进行微调,以及迭代数据集和模型规模的过程。

关键观点5: 社区反响和后续行动

事件引起开源社区的广泛关注和讨论,网友们对模型的性能和真实性提出质疑。负责人表示将采取措施改进模型开发和发布流程,并继续研究反思微调方法。


文章预览

   新智元报道   编辑:Aeneas 好困 【新智元导读】 「世界开源新王」Reflection 70B,才坐上王座没几天就被打假,跌落神坛了!甚至有人质疑,它莫不是套壳的Sonnet 3.5?发布者Matt Shumer和Sahil Chaudhary经过一番挣扎,已经光速「滑跪」,po出的复盘长文也是亮点满满。 「开源新王」Reflection 70B,才发布一个月就跌落神坛了? 9月5日,Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息—— 用Meta的开源Llama 3.1-70B,团队微调出了Reflection 70B。它的基准测试结果惊人,可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下,直接登顶「世界开源新王」! 结果没多久,Reflection 70B就被打假了:公布的基准测试结果和他们的独立测试之间存在显著差异。 无论是AI研究者,还是第三方评估者,都无法复现Matt Shumer所声称的结果。 根据Artificial Analysis的数据,Refle ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览