详解「端到端」下一代模型VLA，通向自动驾驶的关键跳板

智车科技 · 公众号 · · 2024-11-11 17:30

文章预览

本文来源： 36氪（ID：EV36kr）像海鲜市场一样，智能驾驶行业技术浪潮正在快速更迭。 “端到端”刚成为新的技术范式，甚至大量公司还没来得及完成研发模式切换，端到端就进入了技术换代时期。 “端到端”的最新进化方向是，深度融入多模态大模型。过去两年，大模型已经展现出了读文、识图、拍电影的能力，但大模型开车恐怕还是头一遭。近期，智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA（Vision-Language-Action Model，即视觉-语言-动作模型），拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。事实上，VLA模型最早见于机器人行业。2023年7月28日，谷歌 DeepMind推出了全球首个控制机器人的视觉语言动作（VLA）模型。不过这个模型概念正快速扩散到智驾领域。今年10月底， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博