讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

ChatVLA:基于视觉-语言-动作模型的统一多模态理解和机器人控制

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2025-03-01 00:02
    

文章预览

25年2月来自美的集团、华东师范大学、上海大学、北京人形机器人创新中心和清华大学的论文“ChatVLA: Unified Multimodal Understanding and Robot Control with Vision-Language-Action Model”。 人类拥有统一的认知能力,可以感知、理解和与物理世界互动。为什么大语言模型无法复制这种整体理解?通过对视觉-语言-动作模型 (VLA) 中现有的训练范式进行系统分析,凸显两个关键挑战:虚假遗忘(机器人训练会覆盖关键的视觉-文本对齐)和任务干扰(控制和理解任务之间的竞争会降低联合训练时的性能)。为了克服这些限制,ChatVLA 框架,具有分阶段对齐训练功能,可在初始控制掌握后逐步整合多模态数据,以及混合专家架构以最大限度地减少任务干扰。 ChatVLA 在视觉问答数据集上表现出色,并在多模态理解基准上显著超越最先进的视觉-语言-动作 (VLA) 方法。在 MMMU 上的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览