专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

用强化学习解决现实问题:Stochasticity、Scale、GAE与Curriculum Learning

PaperWeekly  · 公众号  · 科研  · 2024-10-17 17:56

文章预览

©PaperWeekly 原创 · 作者 |  白昊 单位 |  UIUC 研究方向 |  强化学习、表征学习 强化学习(RL)在游戏领域上已经取得了巨大成功,比如下围棋;但是目前在现实问题上的应用还有很多困难。俞老师有一个很有名的回答: 强化学习领域目前遇到的瓶颈是什么? 据我的观察,现实任务相较于游戏,最大的挑战就是 stochasticity(随机性)。这篇文章我就用我们最近的工作作为例子来讲一下用 RL 解决现实问题的一些经验,包括怎么去建模现实问题、什么是随机性、解决的算法应该有怎样的性质、base model 怎么选等等。 这里有一个选择:RL 可以用来做 pre-training 和 post-training,但是 post-training 更亲民一点,作为科研乞丐我也只能玩的起微型的 post-training,比如这份工作从头到尾用的 GPU 甚至没超过 13G,一张 T4 就够了。 但是模型小并不代表性能差,关键还是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览