注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
几篇论文实现代码:《MoE ...
·
昨天
爱可可-爱生活
·
//@爱可可-爱生活:AI编程正在推动软件开 ...
·
2 天前
宝玉xp
·
转:cloudflare worker ...
·
4 天前
宝玉xp
·
随着 AI 编程能力提升和 AI ...
·
5 天前
爱可可-爱生活
·
【AI旅行助手:智能旅行助理,能帮你查找航班 ...
·
6 天前
今天看啥
›
专栏
›
量子位
慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密
量子位
·
公众号
·
AI
· 2024-11-04 14:20
文章预览
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI o1彻底带火慢思考和思维链(CoT)方法,但CoT在某些任务上反而会降低模型表现。 比如给生造的词分类任务,GPT-4在zero-shot提示下的准确率高达94%,换成CoT的准确率却断崖式下跌到64.4%。 内置CoT的o1-preview准确率更是只有57.7%。 CoT究竟会“搞砸”哪些任务,在学术界仍是一个悬而未决的问题。 现在,普林斯顿计算机系与心理系合作,确定了其中一些任务的特征:人类深思熟虑或被要求解释自己的思路时,也会降低在这些任务上的表现。 新论文“一步一步想,但小心脚下”已上传到arXiv。 心理学探索思维链掉链子原因 为了缩小要探索的范围,团队在CoT提示和人类进行语言思考之间进行了类比。 大模型和人类具能力有着根本不同,因此影响表现的约束因素也不同。如大模型的上下文长度很长,远远超出了人 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
几篇论文实现代码:《MoE Jetpack: From Dens-20241124171610
昨天
爱可可-爱生活
·
//@爱可可-爱生活:AI编程正在推动软件开发从“编码-实现”模-20241123091817
2 天前
宝玉xp
·
转:cloudflare worker AI 现在所有的生图模型-20241121164452
4 天前
宝玉xp
·
随着 AI 编程能力提升和 AI 工具的增强,最近掀起了“人人写-20241120131523
5 天前
爱可可-爱生活
·
【AI旅行助手:智能旅行助理,能帮你查找航班、预订酒店,还能发送-20241119140719
6 天前
中国诚通
·
中国康养第三届重阳节文艺汇演系列活动精彩上演
1 月前
放牛塘
·
今年3季度沪深IPO受理的独苗,或将是同业竞争的最大尺度
1 月前