具身智能的视觉-语言-动作模型：综述

自动驾驶之心 · 公众号 · · 2024-06-03 22:09

文章预览

作者 | 黄浴编辑 | 自动驾驶之心原文链接：https://zhuanlan.zhihu.com/p/699860714 点击下方卡片，关注“ 自动驾驶之心 ”公众号戳我-> 领取自动驾驶近15个方向学习路线 >> 点击进入→ 自动驾驶之心『具身智能』技术交流群本文只做学术分享，如有侵权，联系删文 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著的成功。这些领域的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q-网络。在单模态神经网络的基础上，引入了许多多模态模型来解决一系列任务，例如视觉问答、图像字幕和语音识别。具身智能中指令跟随机器人策略的兴起，推动了一种多模态模型的发展，即视觉-语言-动作模型 (VLA)。这种多模态能力已成为机器人学习的基础要素。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博