主要观点总结
文章介绍了智能驾驶行业中端到端的最新技术趋势,特别是VLA(Vision-Language-Action Model)模型的发展和应用。文章指出,VLA模型是端到端方案的2.0版本,具有更好的场景推理能力与泛化能力,可能成为智能驾驶走向更广阔具身智能行业的连接点。然而,VLA模型的应用还面临技术、算力硬件和数据等方面的挑战。
关键观点总结
关键观点1: VLA模型的出现
VLA模型是机器人行业中早期的技术,现在正快速扩散到智能驾驶领域。它是一个融合了视觉、语言和动作的多模态大模型范式,拥有更好的场景推理能力与泛化能力。
关键观点2: VLA模型与端到端的结合
VLA模型将端到端与多模态大模型结合得更彻底,能够根据感知直接生成车辆的运动规划和决策,比VLM模型更加接近“图像输入、控制输出”的端到端智驾理想状态。
关键观点3: VLA模型的意义和挑战
行业人士认为,VLA模型对智能驾驶的演进意义重大,可能成为从L2辅助驾驶到L4自动驾驶的飞跃中的关键跳板,同时也是智能驾驶走向更广阔的具身智能行业的连接点。但VLA模型面临技术和车端芯片算力的挑战,当前的车端芯片硬件不足以支撑其部署落地。
关键观点4: 车企和智驾公司的反应
一些车企智驾玩家已经在暗自发力布局VLA模型。例如,理想汽车启动了L4级别自动驾驶的预研,元戎启行基于英伟达最新智驾芯片Thor进行VLA模型研发。然而,量产仍面临挑战,如英伟达的芯片量产时间和成本问题。
关键观点5: 数据方面的挑战和机遇
虽然VLA模型面临数据方面的挑战,但获得多模态大模型的数据并不难。更具挑战的是如何将端到端与多模态大模型的数据与信息作深度交融,这考验着头部智驾团队的模型框架定义能力、模型快速迭代能力。
文章预览
「智能驾驶走向广泛具身智能行业的连接点。 」 文 | 李安琪 编辑 | 李勤 像海鲜市场一样,智能驾驶行业技术浪潮正在快速更迭。“端到端”刚成为新的技术范式,甚至大量公司还没来得及完成研发模式切换,端到端就进入了技术换代时期。 “端到端”的最新进化方向是,深度融入多模态大模型。 过去两年,大模型已经展现出了读文、识图、拍电影的能力,但大模型开车恐怕还是头一遭。 近期,智驾端到端领域出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA(Vision-Language-Action Model,即视觉-语言-动作模型),拥有更好的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。 事实上,VLA模型最早见于机器人行业 。2023年7月28日,谷歌DeepMind推出了全球首个控制机器人的视觉语言动作(VLA)模型
………………………………