专栏名称: 智源社区
【智源社区】是北京智源人工智能研究院打造的一个内行、开放的 AI 实名社区,致力于促进 AI 交流。
目录
相关文章推荐
今天看啥  ›  专栏  ›  智源社区

活动报名|CMU,海量实验解密大模型长链推理

智源社区  · 公众号  ·  · 2025-03-03 15:00
    

文章预览

报告主题: 海量实验解密大模型长链推理 报告日期: 03 月12日(下周四)10:30-11:30 报告要点: 扩展推理计算资源可以增强大型语言模型(LLMs)的推理能力,通过长思维链(CoTs)实现诸如回溯和错误纠正等策略。强化学习(RL)已成为发展这些能力的关键方法,但长思维链出现的条件仍不清楚,并且 RL 训练需要仔细的设计选择。 在这项研究中,我们系统地研究了长思维链推理的机制,确定了使模型能够生成长思维链轨迹的关键因素。通过广泛的有监督微调(SFT)和强化学习实验,我们获得了四个主要发现:(1)虽然 SFT 不是绝对必要的,但它简化了训练并提高了效率;(2)推理能力可能随着训练计算资源的增加而涌现,但其发展并没有得到保证,奖励塑形有助于思维链长度的增长;(3)扩展可验证奖励信号对 RL 至关重要。我们发现,借助过滤机 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览