注册登录

专栏名称: RandomGenerator

机器学习工程师笔记

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

中国安全生产网 · 速戳！第三批中级注安师注册人员名单 · 昨天

中国安全生产网 · 安全员，deepSeek给了你十条建议 · 2 天前

防骗大数据 · 43岁女子找00后男模，3个月花光450万公 ... · 2 天前

今天看啥 › 专栏 › RandomGenerator

让 LLM 下一盘大棋：RL 范式探讨

RandomGenerator · 公众号 · · 2024-09-18 18:43

文章预览

节前匆匆写了篇 OpenAI o1 相关论文概览 [1] ，过节期间做了下 self-critic，发现在整体框架方面的介绍还是讲得不够清楚。比如：看起来都是合成数据，但后面用于监督学习和利用强化学习的思路来优化 generator/actor/policy network（强化学习里的概念真多……），还是很不一样的。所谓的 test-time search 也并不只是作用于推理（inference）阶段利用 CoT，MCTS 来提升 reasoning 效果，在 train-time 也是重要的一环，增强整体生成 reasoning 质量的能力。对于 reward model 来说可能也需要进一步区分，像数学、代码这类在某些情况下可以“形式化验证”的生成内容，可能还是需要构建面向过程的 reward model，这是为什么呢？鉴于 AlphaGo 非常深入人心，我们可以拿下棋来类比一下 LLM 中的 RL 范式具体是个什么样的概念：下棋的动作，可以类比为 LLM 生成内容。但对于 LLM 来说 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国安全生产网 · 速戳！第三批中级注安师注册人员名单

昨天

中国安全生产网 · 安全员，deepSeek给了你十条建议

2 天前

防骗大数据 · 43岁女子找00后男模，3个月花光450万公款：他说给我养老送终

2 天前

新闻株洲 · 株洲市中小学暑假时间定了！

8 月前

电联新媒 · 《中国电力企业管理》（中旬）2024年8期目录

5 月前

科技阿水 · 一行神秘代码，轻松拿捏巨硬！

3 月前

爱可可-爱生活 · GeomCLIP 通过构建高质量的PubChem3D数据集和提出-20241125061157

2 月前

总裁精粹 · 医学科普，第一次这么清楚直观了解自己的身体，一分钟了解人体脏器位-20250105083000

1 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号