今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

TD-MPC2:可扩展、稳健的连续控制世界模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-13 00:32
    

文章预览

24年ICLR来自UCSD的论文“TD-MPC2: Scalable, Robust World Models for Continuous Control”。 TD-MPC 是一种基于模型的强化学习 (RL) 算法,它在学习的隐式(无解码器)世界模型潜空间中执行局部轨迹优化。这项工作提出 TD-MPC2:对 TD-MPC 算法的一系列改进。TD-MPC2 在 104 个在线 RL 任务中显著改善了基线,这些任务涵盖 4 个不同的任务领域,使用一组超参即可获得持续强劲的结果。智体能力随模型和数据大小的增加而增加,并成功训练单个 317M 参数智体执行跨多个任务域、具身和动作空间的 80 项任务。最后,总结与大型 TD-MPC2 智体相关的经验教训、机遇和风险。 在互联网规模的数据集上训练大型模型已经产生了能够执行各种语言和视觉任务的通用模型(Brown,2020;He,2022;Kirillov,2023)。这些模型的成功很大程度上可以归因于庞大数据集的可用性,以及精心设计的架 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览