讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
目录
相关文章推荐
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

探索机器人操作的视觉预训练:数据集、模型和方法

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-09-23 00:17

文章预览

23年8月来自字节、东南大学和清华的论文“Exploring Visual Pre-training for Robot Manipulation: Datasets, Models and Methods”。 利用大规模真实数据进行视觉预训练取得了巨大进展,在通过像素观察进行机器人学习方面展现出巨大潜力。然而,用于机器人操作任务的视觉预训练方法尚未建立。本文从三个基本角度深入研究视觉预训练策略对机器人操作任务的影响:预训练数据集、模型架构和训练方法。提供一些有益于机器人学习的重要实验结果。此外,提出一种用于机器人操作的视觉预训练方案 Vi-PRoM ,它结合自监督学习和监督学习。具体而言,前者采用对比学习从大规模未标记数据中获取底层模式,而后者旨在学习视觉语义和时间动态。在各种模拟环境和真实机器人中对机器人操作进行大量实验。 如图所示:机器人操作的视觉预训练的通用路径 本文的研究流程 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览