专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

VinePPO 是 PPO 的直接修改,它释放了 RL 在 LL-20241005144958

斌叔OKmath  · 微博  ·  · 2024-10-05 14:49
    

文章预览

2024-10-05 14:49 本条微博链接 VinePPO 是 PPO 的直接修改,它释放了 RL 在 LLM 推理方面的真正潜力。 它击败了无 RL 方法(DPO 和 RestEM)和 PPO,以更少的步骤(最多 9 倍)、更少的时间(最多 3 倍)和更少的 KL 以及一半的内存超越了它。 重新思考强化学习后训练的时间🧵 :[1/n] VinePPO 提供了一种简单的方法来扩展训练后计算以获得像 OpenAI 的 O1 这样的推理时间准确性: 但该怎么做呢?关键是修复当前管道中的一个损坏部分: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览