注册登录

专栏名称: 斌叔OKmath

橙旭园CEO 教育博主教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

BCG波士顿咨询 · 新年扬帆再出发，携手逐梦同奋进 · 50 分钟前

汇易咨询 · 秘鲁沿岸水温略有上升，近期我国鱼粉市场春节氛 ... · 2 小时前

汇易咨询 · 【春节福利|免费报告】国内猪价“翘尾”喜迎农 ... · 4 天前

汇易咨询 · 粮油饲料资讯、行业热点、数据信息，首次注册汇 ... · 4 天前

今天看啥 › 专栏 › 斌叔OKmath

VinePPO 是 PPO 的直接修改，它释放了 RL 在 LL-20241005144958

斌叔OKmath · 微博 · · 2024-10-05 14:49

文章预览

2024-10-05 14:49 本条微博链接 VinePPO 是 PPO 的直接修改，它释放了 RL 在 LLM 推理方面的真正潜力。它击败了无 RL 方法（DPO 和 RestEM）和 PPO，以更少的步骤（最多 9 倍）、更少的时间（最多 3 倍）和更少的 KL 以及一半的内存超越了它。重新思考强化学习后训练的时间🧵 ：[1/n] VinePPO 提供了一种简单的方法来扩展训练后计算以获得像 OpenAI 的 O1 这样的推理时间准确性：但该怎么做呢？关键是修复当前管道中的一个损坏部分： ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

BCG波士顿咨询 · 新年扬帆再出发，携手逐梦同奋进

50 分钟前

汇易咨询 · 秘鲁沿岸水温略有上升，近期我国鱼粉市场春节氛围笼罩（2025年第5周）

2 小时前

汇易咨询 · 【春节福利|免费报告】国内猪价“翘尾”喜迎农历新春，节后行情波动性风险依旧

4 天前

汇易咨询 · 粮油饲料资讯、行业热点、数据信息，首次注册汇易网即可开通免费试用

4 天前

储能与电力市场 · 2023年度国家科学技术奖揭晓：阳光电源/中车株洲所/特变电工/宁德时代/中创新航/比亚迪等公司参与项目获奖

7 月前

爱可可-爱生活 · 【OpenPerplex前端应用：开源AI搜索引擎的前端界面，采-20240811210905

5 月前

中国农业银行北京分行 · 2024年反假货币宣传月丨④反假货币西山之行

4 月前

夕小瑶科技说 · 满血版 o1 上线两天，被网友玩出来了 10 个疯狂用法

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号