联合优化World-Action模型的离线强化学习

AI大模型学习基地 · 公众号 · · 2024-11-15 10:18

文章预览

本文提出了一种新的离线强化学习方法，称为联合优化世界-动作模型（ Jointly-Optimized World-Action model， JOWA ），旨在提高在多任务环境中的学习效率和泛化能力。 JOWA 通过共享的Transformer骨干网络联合优化世界模型和 Q 值，能够在多个 Atari 游戏中进行预训练，以学习通用的表示和决策能力。该方法在只使用有限的离线数据时，展示了显著的样本效率和优越的性能，能够有效适应新的游戏任务。此外，研究还表明， JOWA 可以通过并行化的规划算法在推理时补偿 Q 值估计误差，从而实现更好的策略搜索。实验结果显示， JOWA 在离线强化学习领域的表现超越了现有的基准方法。 1 世界-动作模型世界-动作模型( World-Action Model )采用了共享的Transformer骨干网络，同时学习世界动态和 Q 值。通过不同的预测头处理Transformer的输出，模型能够同时捕捉环境 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博