专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

新研究揭示DeepSeek/o3弱点:频繁切换思路放弃正确方向,最短答案往往就是对的!

量子位  · 公众号  · AI  · 2025-02-03 11:48
    

主要观点总结

最新研究发现,推理大模型在解决复杂问题时,存在一种被称为“Underthinking”(欠思考)的现象。研究者发现这些模型在遇到高难度问题时,会频繁切换解题思路,却因缺乏深入探索而失败。研究团队来自腾讯AI实验室、苏州大学和上海交通大学,研究对象是DeepSeek-R1和QwQ系列模型。研究发现在错误回答中,模型消耗了更多的token,原因是思维切换频率增加。为了分析这一现象,研究团队开发了一个评估框架。此外,研究者还提出了一个用于量化Underthinking程度的指标,并借鉴人类考试策略,提出了一种“思路切换惩罚机制”(TIP)来减少无效切换。同时,也有其他研究者通过“简洁解码”方法提高模型推理效率。这些研究帮助我们理解AI在推理过程中的弱点,并为改进AI提供了新的思路。

关键观点总结

关键观点1: 推理大模型存在‘欠思考’现象,即在解决复杂问题时频繁切换解题思路,缺乏深入探索。

研究发现这一现象导致模型在错误回答中消耗更多计算资源,并显著降低答案的正确率。

关键观点2: 研究团队通过开发评估框架和量化指标(Underthinking Metric)来分析这一现象。

量化指标通过测量错误答案中的token使用效率来评估推理效率。

关键观点3: 研究者提出了一种“思路切换惩罚机制”(TIP)来减少模型的无效切换,提高答案质量。

TIP通过对触发思路切换的关键词施加惩罚,降低这些词在解码过程中的生成概率,从而迫使模型在当前路径上探索更久。

关键观点4: 其他研究者提出了“简洁解码”方法来提高模型推理效率。

简洁解码通过并行运行多次模型并选择tokens最少的答案来提高准确率。


文章预览

梦晨 西风 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek和o1/o3一类推理大模型持续带来震撼之际, 有人开始研究他们的弱点了 。 最新研究揭示: 在遇到高难度问题时,推理大模型可能像“三心二意的学生”一样频繁切换解题思路,却因缺乏深入探索而失败——这种现象被研究者称为 Underthinking (欠思考) 。 研究团队来自腾讯AI实验室、苏州大学和上海交通大学,主要研究对象是开源的 DeepSeek-R1和Qwen QwQ 系列模型。 通过分析AI的错误答案,他们发现当前的推理大模型经常在思考早期就走上了正确的路线,但倾向于“浅尝辄止”,很快开始探索别的思路,导致后续生成的数千个tokens对解题毫无贡献。 这种“无效努力”不仅浪费计算资源,还显著降低了答案的正确率。 “三心二意”是罪魁祸首 这一现象在解决数学竞赛题等更为复杂任务时尤为明显。 为 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览