慢思考准确率反降30%！普林斯顿揭示思维链某些任务上失效的秘密

量子位 · 公众号 · AI · 2024-11-04 14:20

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI OpenAI o1彻底带火慢思考和思维链（CoT）方法，但CoT在某些任务上反而会降低模型表现。比如给生造的词分类任务，GPT-4在zero-shot提示下的准确率高达94%，换成CoT的准确率却断崖式下跌到64.4%。内置CoT的o1-preview准确率更是只有57.7%。 CoT究竟会“搞砸”哪些任务，在学术界仍是一个悬而未决的问题。现在，普林斯顿计算机系与心理系合作，确定了其中一些任务的特征：人类深思熟虑或被要求解释自己的思路时，也会降低在这些任务上的表现。新论文“一步一步想，但小心脚下”已上传到arXiv。心理学探索思维链掉链子原因为了缩小要探索的范围，团队在CoT提示和人类进行语言思考之间进行了类比。大模型和人类具能力有着根本不同，因此影响表现的约束因素也不同。如大模型的上下文长度很长，远远超出了人 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 几篇论文实现代码：《MoE Jetpack: From Dens-20241124171610

昨天

爱可可-爱生活 · //@爱可可-爱生活:AI编程正在推动软件开发从“编码-实现”模-20241123091817

2 天前

宝玉xp · 转：cloudflare worker AI 现在所有的生图模型-20241121164452

4 天前

宝玉xp · 随着 AI 编程能力提升和 AI 工具的增强，最近掀起了“人人写-20241120131523

5 天前

爱可可-爱生活 · 【AI旅行助手：智能旅行助理，能帮你查找航班、预订酒店，还能发送-20241119140719

6 天前

中国诚通 · 中国康养第三届重阳节文艺汇演系列活动精彩上演

1 月前

放牛塘 · 今年3季度沪深IPO受理的独苗，或将是同业竞争的最大尺度

1 月前