专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

「世界开源新王」跌落神坛？重测跑分暴跌实锤造假，2人团队光速「滑跪」

新智元 · 公众号 · AI · 2024-10-07 13:09

主要观点总结

文章主要介绍了开源新王Reflection 70B被质疑作弊的事件。发布后被质疑数据造假，套壳其他模型等争议。负责人Sahil Chaudhary和Matt Shumer对此进行了复盘并公开道歉。文章还介绍了模型开发过程、发布情况、网友质疑和最终回应等内容。

关键观点总结

关键观点1: Reflection 70B模型的争议

Reflection 70B模型被质疑数据造假，套壳其他模型（如Claude、GPT等），其基准测试结果无法复现。

关键观点2: Sahil Chaudhary和Matt Shumer的复盘和回应

负责人Sahil Chaudhary和Matt Shumer对事件进行了复盘，并公开道歉。他们承认在模型开发和发布过程中存在疏忽和不当行为，并提供了模型权重、训练数据、训练脚本和评估代码以便公众复现。

关键观点3: 模型的发布和验证问题

模型发布时未经过充分的验证，导致出现一系列问题。网友质疑模型的表现和基准测试结果的可靠性。

关键观点4: 模型的训练和开发过程

Sahil Chaudhary介绍了模型的训练和开发过程，包括使用Llama 3.1作为基础模型进行微调，以及迭代数据集和模型规模的过程。

关键观点5: 社区反响和后续行动

事件引起开源社区的广泛关注和讨论，网友们对模型的性能和真实性提出质疑。负责人表示将采取措施改进模型开发和发布流程，并继续研究反思微调方法。

文章预览

新智元报道编辑：Aeneas 好困【新智元导读】「世界开源新王」Reflection 70B，才坐上王座没几天就被打假，跌落神坛了！甚至有人质疑，它莫不是套壳的Sonnet 3.5？发布者Matt Shumer和Sahil Chaudhary经过一番挣扎，已经光速「滑跪」，po出的复盘长文也是亮点满满。「开源新王」Reflection 70B，才发布一个月就跌落神坛了？ 9月5日，Hyperwrite AI联创兼CEO Matt Shumer在X上扔出一则爆炸性消息—— 用Meta的开源Llama 3.1-70B，团队微调出了Reflection 70B。它的基准测试结果惊人，可以和Claude 3.5 Sonnet以及GPT-4这类顶级闭源模型一较高下，直接登顶「世界开源新王」！结果没多久，Reflection 70B就被打假了：公布的基准测试结果和他们的独立测试之间存在显著差异。无论是AI研究者，还是第三方评估者，都无法复现Matt Shumer所声称的结果。根据Artificial Analysis的数据，Refle ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

宝玉xp · 回复@CoolstoneYoung:- 位于美国境内且年满 18-20241120130030

3 天前

宝玉xp · //@梧桐清声:第一步可以直接问，我要改英文作业，一般情况下应该-20241120100317

3 天前

爱可可-爱生活 · 【AI旅行助手：智能旅行助理，能帮你查找航班、预订酒店，还能发送-20241119140719

4 天前

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

5 天前

AIGC开放社区 · 超GPT-4o，1240亿参数！最强开源多模态模型 Pixtral Large！

5 天前

爱可可-爱生活 · 晚安～ #晚安# -20241117225937

6 天前

凤凰网 · 疫苗谣言粉碎机

2 月前

designwire设计腕儿 · 2024世界设计大师论坛，雅布、Philippe Starck等盛会上海！

1 月前

designwire设计腕儿 · 2024世界设计大师论坛，雅布、Philippe Starck等盛会上海！

1 月前

凤凰网房产上海 · 开盘日历｜认购率283%，金海汀雲台触发积分制

5 天前