OpenVLA：一个开源的视觉-语言-动作模型

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-08-31 00:08

文章预览

24年6月来自 Stanford、UC Berkeley、TRI、Deepmind 和 MIT的论文“OpenVLA: An Open-Source Vision-Language-Action Model”。基于互联网规模的视觉-语言数据和多样化的机器人演示，进行预训练的大型策略，有可能改变教导机器人新技能的方式：可以微调此类视觉-语言-动作 (VLA) 模型以获得稳健、可推广的视觉运动（visuomotor）控制策略，而不是从头开始训练新行为。然而，机器人领域 VLA 的广泛采用一直具有挑战性，因为 1) 现有的 VLA 大部分是封闭的，无法向公众开放，2) 先前的工作未能探索有效微调 VLA 以执行新任务的方法，这是采用的关键要素。为了应对这些挑战，推出 OpenVLA，这是一个 7B 参数的开源 VLA，基于 970k 个现实世界机器人演示进行训练。OpenVLA 以 Llama 2 语言模型为基础，结合了融合 DINOv2 和 SigLIP 预训练特征的视觉编码器。作为增加的数据多样性和新模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博