为什么Qwen能自我改进推理，Llama却不行？斯坦福找到了原理

机器学习算法与自然语言处理 · 公众号 · · 2025-03-07 09:00

文章预览

MLNLP 社区是国内外知名的机器学习与自然语言处理社区，受众覆盖国内外NLP硕博生、高校老师以及企业研究人员。社区的愿景是促进国内外自然语言处理，机器学习学术界、产业界和广大爱好者之间的交流和进步，特别是初学者同学们的进步。来源 | 机器之心编辑 | 张倩、泽南给到额外的计算资源和「思考」时间，为什么有的模型能好好利用，把性能提升一大截，而有的模型就不行？当遇到困难问题时，人类会花时间深入思考以找到解决方案。在 AI 领域，最近的一些大语言模型在通过强化学习进行自我改进训练时，也已经开始表现出类似的推理行为。但是，在同样的强化学习训练下，不同模型自我改进的能力却存在很大差异。比如在一个游戏中，Qwen-2.5-3B 的自我改进能力远远超过 Llama-3.2-3B（两个模型初始都很差，但强化学习训练结束后，Qwen ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博