今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

用于视觉控制的掩码世界模型

大语言模型和具身智体及自动驾驶  · 公众号  · 科技创业 科技自媒体  · 2024-10-08 00:04
    

主要观点总结

本文介绍了一种基于视觉模型的强化学习框架MWM,用于机器人从视觉观察中进行样本高效的学习。该框架将视觉表征学习和动态学习解耦,通过使用具有卷积层和视觉Transformer的自动编码器以及潜动态模型来实现。文章还介绍了MWM的算法细节,包括自动编码器和动态模型的学习方式,以及在实践中的实施细节。

关键观点总结

关键观点1: MWM框架的特点

MWM是一个基于视觉模型的强化学习框架,通过将视觉表征学习和动态学习解耦,实现了机器人从视觉观察中的样本高效学习。它使用自动编码器和潜动态模型来模拟机器人与小目标之间的交互。

关键观点2: 自动编码器的工作方式

自动编码器使用卷积特征和视觉Transformer进行训练,根据随机掩码的卷积特征重建原始像素。为了对任务相关信息进行编码,引入了辅助奖励预测目标。

关键观点3: 动态模型的学习方式

动态模型在自动编码器的潜空间中学习,通过利用视觉表征的高级和低级信息进行抽象化学习,专注于动态学习。模型通过重建包含空间信息的所有表征来接收丰富的学习信号。

关键观点4: MWM的实现细节

MWM使用具有特定结构的卷积主干和ViT架构进行掩码图像建模。为了对重建目标可能无法单独捕获的任务相关信息进行编码,为自动编码器引入了辅助目标。MWM使用特定的算法伪代码进行实施,包括使用特定的视觉观测值、卷积主干结构、世界模型的构建等。


文章预览

23年5月来自KAIST、伯克利分校、谷歌和加拿大多伦多大学的论文“Masked World Models for Visual Control”。 基于视觉模型的强化学习 (RL) 有可能实现机器人从视觉观察中进行样本高效的学习。然而,当前的方法通常端到端训练单个模型来学习视觉表征和动态,这样难以准确地模拟机器人与小目标之间的交互。这项工作引入一个基于视觉模型的 RL 框架,将视觉表征学习和动态学习解耦,即MWM。具体来说,训练一个具有卷积层和视觉Transformer (ViT) 的自动编码器,根据掩码的卷积特征重建像素,并学习一个对来自自动编码器的表征进行操作的潜动态模型。此外,为了对与任务相关的信息进行编码,为自动编码器引入一个辅助奖励预测目标。用从环境交互中收集的在线样本不断更新自动编码器和动态模型。该解耦方法在 Meta-world 和 RLBench 的各种视觉机器人任务中 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览