活动报名｜CMU，海量实验解密大模型长链推理

智源社区 · 公众号 · · 2025-03-03 15:00

文章预览

报告主题：海量实验解密大模型长链推理报告日期： 03 月12日（下周四）10:30-11:30 报告要点: 扩展推理计算资源可以增强大型语言模型（LLMs）的推理能力，通过长思维链（CoTs）实现诸如回溯和错误纠正等策略。强化学习（RL）已成为发展这些能力的关键方法，但长思维链出现的条件仍不清楚，并且 RL 训练需要仔细的设计选择。在这项研究中，我们系统地研究了长思维链推理的机制，确定了使模型能够生成长思维链轨迹的关键因素。通过广泛的有监督微调（SFT）和强化学习实验，我们获得了四个主要发现：（1）虽然 SFT 不是绝对必要的，但它简化了训练并提高了效率；（2）推理能力可能随着训练计算资源的增加而涌现，但其发展并没有得到保证，奖励塑形有助于思维链长度的增长；（3）扩展可验证奖励信号对 RL 至关重要。我们发现，借助过滤机 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小荷韭菜成长日记 · 3年前2021.6.10买的私募，目前赚了多少？（2021.6.10~2024.6.14）

8 月前

古月居 · 基于ROS2 Qt实现话题的可视化绘制显示 • 蒋程扬（第18期)

6 月前

温州都市报 · 坐18小时火车后“疯”了！女子突然失控暴打儿子，咬舌自残！竟然还有这种病？

3 周前

中保新知 · 华泰人寿2024年业务量质齐升，新五年战略构建高质量发展新蓝图

2 周前