从想太多到想不透？DeepSeek-R1等长推理模型也存在「思考不足」问题

Dots机构投资者社区 · 公众号 · · 2025-02-16 08:15

文章预览

本文转自微信公众号“机器之心”，作者：机器之心。本文将介绍首个关于长推理模型 “思考不足” 现象的工作。该工作由腾讯 AI Lab 与苏州大学、上海交通大学团队共同完成。本文的通讯作者为涂兆鹏，腾讯专家研究员，研究方向为深度学习和大模型，在国际顶级期刊和会议上发表学术论文一百余篇，引用超过 9000 次。担任 SCI 期刊 NeuroComputing 副主编，多次担任 ACL、EMNLP、ICLR 等国际顶级会议领域主席。第一作者为苏州大学博士生王越，腾讯 AI Lab 高级研究员刘秋志、徐嘉豪、梁添，以及上海交通大学博士生陈星宇、何志威。论文题目：Thoughts Are All Over the Place: On the Underthinking of o1-Like LLMs 论文地址：https://arxiv.org/pdf/2501.18585 背景与动机长推理模型（Long Reasoning Models），如 OpenAI o1 [1]、QwQ-32B-Preview [2]、 DeepSeek-R1-671B [3] 和 Kimi K1.5 [4] 等，因其展现 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

TGB湖南人 · 【2.21复盘】量能重回两万亿！反弹空间再度打开，局部牛启动。。。

9 小时前

网信西藏 · 事关西藏这些退休人员待遇！

10 小时前

科技美学 · 小鹏M03如何开启哨兵模式

3 天前

TGB湖南人 · 【2.18复盘】高位股继续退潮，DeepSeek主升结束，真正的厮杀开始了。。。

3 天前

网信西藏 · 开学在即，定日震区学校准备得怎么样了？

3 天前

内蒙古天气 · 全区天气预报

8 月前

江苏商务 · 巩固提质，外贸外资“加足马力”

4 月前

券商中国 · 抓住“风口”很关键！排位赛折射公募26年变迁

2 月前