《面向具身智能的视觉-语言-动作模型》综述

机器学习研究组订阅 · 公众号 · AI · 2024-05-25 17:27

文章预览

深度学习在许多领域中表现出了显著的成功，包括计算机视觉、自然语言处理和强化学习。这些领域中的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q 网络。在单模态神经网络的基础上，引入了许多多模态模型以解决视觉问答、图像描述和语音识别等一系列任务。具身智能中遵循指令的机器人策略的兴起推动了被称为视觉-语言-动作模型（VLA）的新型多模态模型的发展。它们的多模态能力已经成为机器人学习中的基础要素。为了增强多样性、灵活性和泛化性等特性，提出了各种方法。一些模型通过预训练来优化特定组件，另一些则旨在开发能够预测低级动作的控制策略。某些VLA模型作为高级任务规划器，能够将长远任务分解为可执行的子任务。在过去几年中，出现了大量的VLA模型，反映了具身智能的快速进展。因此，通过一篇全面 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 《爱可可微博热门分享(2.2)》爱可可微博热门分享(2.2)-20250202224514

昨天

爱可可-爱生活 · 在中国算力受限的背景下，系统软件优化或将成为产业突围的关键路径。-20250202084303

2 天前

宝玉xp · 试试 o3-mini-high 测试贴吧嘴臭老哥风格（搜索打开）-20250201131653

3 天前

新黄河 · 三家美国巨头同日接入DeepSeek，业内人士：DeepSeek或准备适配国产GPU

3 天前

新黄河 · 三家美国巨头同日接入DeepSeek，业内人士：DeepSeek或准备适配国产GPU

3 天前

爱可可-爱生活 · 【[446星]Neva：下一代编程语言，用数据流编程解决程序员的-20250130212509

4 天前

滑州百事通 · 喜报！滑县新增一家省级质量标杆企业！

7 月前

杭州发布 · 本月起实施！杭州公积金办理有新调整！

5 月前