详解「端到端」下一代模型VLA，通向自动驾驶的关键跳板

36氪 · 公众号 · 科技媒体 · 2024-11-11 08:39

文章预览

智能驾驶走向广泛具身智能行业的连接点。文｜李安琪编辑｜李勤来源｜ 36氪汽车（ID：EV36kr）封面来源｜视觉中国像海鲜市场一样，智能驾驶行业技术浪潮正在快速更迭。“端到端”刚成为新的技术范式，甚至大量公司还没来得及完成研发模式切换，端到端就进入了技术换代时期。 “端到端”的最新进化方向是，深度融入多模态大模型。过去两年，大模型已经展现出了读文、识图、拍电影的能力，但大模型开车恐怕还是头一遭。近期，智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA（Vision-Language-Action Model，即视觉-语言-动作模型），拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。事实上，VLA模型最早见于机器人行业。2023年7月28日，谷歌 DeepMind推出了全球首个控制 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博