专栏名称: 智车科技
自动驾驶内容服务商。聚焦自动驾驶前沿动态,引领汽车行业科技创新!
今天看啥  ›  专栏  ›  智车科技

详解「端到端」下一代模型VLA,通向自动驾驶的关键跳板

智车科技  · 公众号  ·  · 2024-11-11 17:30
    

文章预览

本文来源: 36氪 (ID:EV36kr) 像海鲜市场一样,智能驾驶行业技术浪潮正在快速更迭。 “端到端”刚成为新的技术范式,甚至大量公司还没来得及完成研发模式切换,端到端就进入了技术换代时期。 “端到端”的最新进化方向是,深度融入多模态大模型。过去两年,大模型已经展现出了读文、识图、拍电影的能力,但大模型开车恐怕还是头一遭。 近期,智驾行业出现了一个融合了视觉、语言和动作的多模态大模型范式——VLA(Vision-Language-Action Model,即视觉-语言-动作模型),拥有更高的场景推理能力与泛化能力。不少智驾人士都将VLA视为当下“端到端”方案的2.0版本。 事实上,VLA模型最早见于机器人行业。2023年7月28日,谷歌 DeepMind推出了全球首个控制机器人的视觉语言动作(VLA)模型。 不过这个模型概念正快速扩散到智驾领域。今年10月底, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览