专栏名称: 自动驾驶之心
自动驾驶开发者社区,关注计算机视觉、多维感知融合、部署落地、定位规控、领域方案等,坚持为领域输出最前沿的技术方向!
今天看啥  ›  专栏  ›  自动驾驶之心

具身智能的视觉-语言-动作模型:综述

自动驾驶之心  · 公众号  ·  · 2024-06-03 22:09
    

文章预览

作者 | 黄浴  编辑 | 自动驾驶之心 原文链接:https://zhuanlan.zhihu.com/p/699860714 点击下方 卡片 ,关注“ 自动驾驶之心 ”公众号 戳我-> 领取 自动驾驶近15个 方向 学习 路线 >> 点击进入→ 自动驾驶之心 『 具身智能 』 技术交流群 本文只做学术分享,如有侵权,联系删文 24年5月论文“A Survey on Vision-Language-Action Models for Embodied AI”。 深度学习已在计算机视觉、自然语言处理和强化学习等许多领域取得了显著的成功。这些领域的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q-网络。在单模态神经网络的基础上,引入了许多多模态模型来解决一系列任务,例如视觉问答、图像字幕和语音识别。具身智能中指令跟随机器人策略的兴起,推动了一种多模态模型的发展,即 视觉-语言-动作模型 (VLA)。这种多模态能力已成为机器人学习的基础要素。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览