专栏名称: AI大模型学习基地
人工智能AIGC行业探索分享,包括相关技术分享和资讯分享,以及相关商务洽谈合作。
今天看啥  ›  专栏  ›  AI大模型学习基地

联合优化World-Action模型的离线强化学习

AI大模型学习基地  · 公众号  ·  · 2024-11-15 10:18
    

文章预览

本文提出了一种新的离线强化学习方法,称为 联合优化世界-动作模型 ( Jointly-Optimized World-Action model, JOWA ),旨在提高在多任务环境中的学习效率和泛化能力。 JOWA 通过共享的Transformer骨干网络联合优化世界模型和 Q 值,能够在多个 Atari 游戏中进行预训练,以学习通用的表示和决策能力。该方法在只使用有限的离线数据时,展示了显著的样本效率和优越的性能,能够有效适应新的游戏任务。此外,研究还表明, JOWA 可以通过并行化的规划算法在推理时补偿 Q 值估计误差,从而实现更好的策略搜索。实验结果显示, JOWA 在离线强化学习领域的表现超越了现有的基准方法。 1 世界-动作模型 世界-动作模型( World-Action Model )采用了共享的Transformer骨干网络, 同时学习世界动态和 Q 值。通过不同的预测头处理Transformer的输出,模型能够同时捕捉环境 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览