文章预览
《Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving》 https://github.com/hustvl/Senna 这篇论文介绍了一种结合大型视觉语言模型(LVLMs)和端到端自动驾驶模型的自动驾驶系统,名为Senna。Senna的核心思想是将高级规划决策与低级轨迹预测解耦。具体来说,Senna由两个主要部分组成: 1. Senna-VLM(Vision-Language Model):这是一个大型视觉语言模型,它负责生成自然语言形式的高级规划决策。Senna-VLM利用多图像编码方法和多视图提示来高效理解场景。此外,论文中还介绍了面向规划的问答(QA)和三阶段训练策略,这些策略在保留常识的同时增强了Senna-VLM的规划性能。 2. Senna-E2E(End-to-End Model):这是一个端到端模型,它负责基于Senna-VLM生成的高级决策来预测精确的轨迹。Senna-E2E在训练时使用真实的规划决策作为输入,在推理时则依赖于Senna-VLM预测的
………………………………