文章预览
©PaperWeekly 原创 · 作者 | 程杰 单位 | 中科院自动化所、阿里通义实验室 研究方向 | 强化学习 论文标题: Scaling Offline Model-Based RL via Jointly-Optimized World-Action Model Pretraining 论文链接: https://arxiv.org/abs/2410.00564 代码链接(含模型权重): https://github.com/CJReinforce/JOWA 项目主页: https://cjreinforce.github.io/JOWA_agents/ TL;DR: Scaling:通过离线基于模型、 基于时序差分 的强化学习预训练,所提算法JOWA的性能能够随着模型大小的增加而平稳提升。 SOTA:最大的预训练智能体能够在 15 款 Atari 游戏上达到 84.7% 人类水平和 119.5% 的 DQN 水平。 Few-shots 微调:只需约 4 条 expert-level 游戏轨迹,它就可以快速迁移到新游戏环境中。 更多示例见 github 仓库 /demos 和项目主页。 引言 离线强化学习的一个长远目标就是构建高性能的通才智能体。但是目前强化学习中构建通用智
………………………………