专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集

量子位  · 公众号  · AI  · 2024-09-06 13:28

文章预览

西风 发自 凹非寺 量子位 | 公众号 QbitAI 开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。 新模型名为 Reflection 70B ,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。 比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在 标签 中纠正了自己。 在官方评测中,70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆, 得分99.2% 。 这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦: GSM8K得分99%!是不是可以正式淘汰这个基准了? 模型刚刚上线网友就把试玩挤爆了,对此Meta还主动支援了更多算力。 在网友测试中,Reflection 70B能回答对GSM8K数据集中本身答案错误的问题: 我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览