今天看啥  ›  专栏  ›  机器学习研究组订阅

《面向具身智能的视觉-语言-动作模型》综述

机器学习研究组订阅  · 公众号  · AI  · 2024-05-25 17:27
    

文章预览

深度学习在许多领域中表现出了显著的成功,包括计算机视觉、自然语言处理和强化学习。这些领域中的代表性人工神经网络包括卷积神经网络、Transformers 和深度 Q 网络。在单模态神经网络的基础上,引入了许多多模态模型以解决视觉问答、图像描述和语音识别等一系列任务。 具身智能中遵循指令的机器人策略的兴起推动了被称为视觉-语言-动作模型(VLA)的新型多模态模型的发展 。它们的多模态能力已经成为机器人学习中的基础要素。为了增强多样性、灵活性和泛化性等特性,提出了各种方法。一些模型通过预训练来优化特定组件,另一些则旨在开发能够预测低级动作的控制策略。某些VLA模型作为高级任务规划器,能够将长远任务分解为可执行的子任务。在过去几年中, 出现了大量的VLA模型,反映了具身智能的快速进展 。因此,通过一篇全面 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览