注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
宝玉xp
·
//@马少平THU:好精彩//@刘群MT-t ...
·
昨天
宝玉xp
·
随着 AI 编程能力提升和 AI ...
·
3 天前
量子位
·
国产4o大模型,秒懂国风李子柒
·
3 天前
爱可可-爱生活
·
【信息熵新解:探索信息论中的熵概念,探讨了一 ...
·
5 天前
爱可可-爱生活
·
本文通过构建一个新的基准测试系统,系统性地评 ...
·
6 天前
今天看啥
›
专栏
›
量子位
开源大模型新王干翻GPT-4o,新技术可纠正自己幻觉,数学99.2分刷爆测试集
量子位
·
公众号
·
AI
· 2024-09-06 13:28
文章预览
西风 发自 凹非寺 量子位 | 公众号 QbitAI 开源大模型王座突然易主,居然来自一家小创业团队,瞬间引爆业界。 新模型名为 Reflection 70B ,使用一种全新训练技术,让AI学会在推理过程中纠正自己的错误和幻觉。 比如最近流行的数r测试中,一开始它犯了和大多数模型一样的错误,但主动在 标签 中纠正了自己。 在官方评测中,70B模型全面超越最强开源Llama 3.1 405B、GPT-4o、Claude 3 Opus、Gemini 1.5 Pro,特别是数学基准GSM8K上直接刷爆, 得分99.2% 。 这个结果也让OpenAI科学家、德扑AI之父Noam Brown激情开麦: GSM8K得分99%!是不是可以正式淘汰这个基准了? 模型刚刚上线网友就把试玩挤爆了,对此Meta还主动支援了更多算力。 在网友测试中,Reflection 70B能回答对GSM8K数据集中本身答案错误的问题: 我向模型提供了GSM8K中存在的5个“ground_truth”本身就不正确的问题。 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
宝玉xp
·
//@马少平THU:好精彩//@刘群MT-to-Death:编都-20241122070908
昨天
宝玉xp
·
随着 AI 编程能力提升和 AI 工具的增强,最近掀起了“人人写-20241120131523
3 天前
量子位
·
国产4o大模型,秒懂国风李子柒
3 天前
爱可可-爱生活
·
【信息熵新解:探索信息论中的熵概念,探讨了一种替代的 Shann-20241118103458
5 天前
爱可可-爱生活
·
本文通过构建一个新的基准测试系统,系统性地评估了大型语言模型模拟-20241117072232
6 天前
云南省发展改革委
·
资源经济、园区经济、口岸经济表现亮眼 云南擘画改革开放“新篇章”
4 月前
上海本地宝
·
2024上海迪士尼门票价格
3 月前
权银河期权
·
【商品期权日报0919】商品期权成交量569万张,沪银期权波动率下降显著
2 月前
学习强国
·
更新自己,未来可期
1 月前