讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

OpenVLA:一个开源的视觉-语言-动作模型

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-08-31 00:08

文章预览

24年6月来自 Stanford、UC Berkeley、TRI、Deepmind 和 MIT的论文“OpenVLA: An Open-Source Vision-Language-Action Model”。 基于互联网规模的视觉-语言数据和多样化的机器人演示,进行预训练的大型策略,有可能改变教导机器人新技能的方式:可以微调此类视觉-语言-动作 (VLA) 模型以获得稳健、可推广的视觉运动(visuomotor)控制策略,而不是从头开始训练新行为。然而,机器人领域 VLA 的广泛采用一直具有挑战性,因为 1) 现有的 VLA 大部分是封闭的,无法向公众开放,2) 先前的工作未能探索有效微调 VLA 以执行新任务的方法,这是采用的关键要素。 为了应对这些挑战,推出 OpenVLA,这是一个 7B 参数的开源 VLA,基于 970k 个现实世界机器人演示进行训练。OpenVLA 以 Llama 2 语言模型为基础,结合了融合 DINOv2 和 SigLIP 预训练特征的视觉编码器。作为增加的数据多样性和新模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览