讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

在现实世界中微调离线的世界模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-14 00:06
    

文章预览

23年10月来自UCSD和清华的论文“Finetuning Offline World Models in the Real World”。 强化学习 (RL) 以数据效率低而闻名,这使得在真实机器人上进行训练变得困难。虽然基于模型的 RL 算法(世界模型)在一定程度上提高了数据效率,但它们仍然需要数小时或数天的交互才能学习技能。最近,离线 RL 已被提议作为一种框架,用于在预先存在的数据集上训练 RL 策略,而无需任何在线交互。然而,将算法限制在固定数据集上会导致训练和推理之间的状态动作分布偏移,并限制其对新任务的适用性。 这项工作考虑使用在真实机器人上收集的离线数据对世界模型进行预训练的问题,然后用学习的模型进行规划,根据收集的在线数据对模型进行微调。为了减轻在线交互过程中的外推误差,在测试时通过平衡估计回报和(认知)模型不确定性来正则化规划器。在模拟和 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览