具身人工智能：主流VLA方案分类和对比

芝能汽车 · 公众号 · 汽车 · 2025-03-10 07:52

文章预览

芝能科技出品具身智能旨在让智能体在物理世界中通过感知、决策和行动实现目标，视觉-语言-动作（VLA）模型作为其核心技术，近年来备受关注。 VLA模型能够处理视觉、语言和动作信息，使智能体理解人类指令并执行任务。我们总结了主流VLA方案，包括基于经典Transformer、预训练LLM/VLM、扩散模型等类型，代表性开源项目和核心思想，方案间的差异与共识，并探讨了数据稀缺、运动规划、实时响应等挑战及未来发展方向。也是为接下来中国VLA模型的涌现做一些梳理，希望为具身智能研究提供一些参考。 01 具身智能VLA方案总览 ● VLA模型通过多种技术路径实现视觉、语言和动作的融合，其方案多样，各具特色。 ◎ 基于经典Transformer结构的方案，如ALOHA(ACT)系列、RT-1、HPT等，利用Transformer的序列建模能力，将强化学习轨迹建模为状态-动作-奖励序 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博