专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密

量子位  · 公众号  · AI  · 2024-11-04 14:20

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI OpenAI o1彻底带火慢思考和思维链(CoT)方法,但CoT在某些任务上反而会降低模型表现。 比如给生造的词分类任务,GPT-4在zero-shot提示下的准确率高达94%,换成CoT的准确率却断崖式下跌到64.4%。 内置CoT的o1-preview准确率更是只有57.7%。 CoT究竟会“搞砸”哪些任务,在学术界仍是一个悬而未决的问题。 现在,普林斯顿计算机系与心理系合作,确定了其中一些任务的特征:人类深思熟虑或被要求解释自己的思路时,也会降低在这些任务上的表现。 新论文“一步一步想,但小心脚下”已上传到arXiv。 心理学探索思维链掉链子原因 为了缩小要探索的范围,团队在CoT提示和人类进行语言思考之间进行了类比。 大模型和人类具能力有着根本不同,因此影响表现的约束因素也不同。如大模型的上下文长度很长,远远超出了人 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览