专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

一个Agent拿下15款Atari游戏,RL也能实现Pretraining、Scaling和Few-shots微调

PaperWeekly  · 公众号  · 科研  · 2024-10-25 22:21

文章预览

©PaperWeekly 原创 · 作者 |  程杰 单位 |  中科院自动化所、阿里通义实验室 研究方向 |  强化学习 论文标题: Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining 论文链接: https://arxiv.org/abs/2410.00564 代码链接(含模型权重): https://github.com/CJReinforce/JOWA 项目主页: https://cjreinforce.github.io/JOWA_agents/ TL;DR: Scaling:通过离线基于模型、 基于时序差分 的强化学习预训练,所提算法JOWA的性能能够随着模型大小的增加而平稳提升。 SOTA:最大的预训练智能体能够在 15 款 Atari 游戏上达到 84.7% 人类水平和 119.5% 的 DQN 水平。 Few-shots 微调:只需约 4 条 expert-level 游戏轨迹,它就可以快速迁移到新游戏环境中。 更多示例见 github 仓库 /demos 和项目主页。 引言 离线强化学习的一个长远目标就是构建高性能的通才智能体。但是目前强化学习中构建通用智 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览