文章预览
报告主题: 海量实验解密大模型长链推理 报告日期: 03 月12日(下周四)10:30-11:30 报告要点: 扩展推理计算资源可以增强大型语言模型(LLMs)的推理能力,通过长思维链(CoTs)实现诸如回溯和错误纠正等策略。强化学习(RL)已成为发展这些能力的关键方法,但长思维链出现的条件仍不清楚,并且 RL 训练需要仔细的设计选择。 在这项研究中,我们系统地研究了长思维链推理的机制,确定了使模型能够生成长思维链轨迹的关键因素。通过广泛的有监督微调(SFT)和强化学习实验,我们获得了四个主要发现:(1)虽然 SFT 不是绝对必要的,但它简化了训练并提高了效率;(2)推理能力可能随着训练计算资源的增加而涌现,但其发展并没有得到保证,奖励塑形有助于思维链长度的增长;(3)扩展可验证奖励信号对 RL 至关重要。我们发现,借助过滤机
………………………………