地平线提出AlphaDrive，首个基于GRPO强化学习和规划推理实现自动驾驶大模型

机器之心 · 公众号 · AI · 2025-03-23 12:01

主要观点总结

文章介绍了AlphaDrive，一个针对自动驾驶决策规划的视觉语言大模型的强化学习和推理训练框架。该框架首次将基于GRPO的强化学习和规划推理引入基于大模型的自动驾驶任务，提升了模型的规划表现和训练效率。文章还介绍了AlphaDrive的关键创新点，如四种强化学习GRPO rewards和两阶段推理训练策略。

关键观点总结

关键观点1: AlphaDrive的应用背景和重要性

AlphaDrive是一个针对自动驾驶决策规划的大模型强化学习和推理训练框架。它的提出是为了解决现有自动驾驶决策规划方法在处理复杂场景和长尾问题上的不足。

关键观点2: AlphaDrive的关键技术

AlphaDrive提出了四种强化学习GRPO rewards，包括规划准确率reward、action权重reward、输出多样性reward和规划格式reward。同时，还提出了一种基于SFT和RL的两阶段规划推理训练策略。

关键观点3: AlphaDrive的实验效果

在真实驾驶场景的大规模数据集上的实验验证了AlphaDrive的先进性。与SFT训练的模型相比，AlphaDrive的规划准确率显著提升了26%，并且在仅使用1/5的训练数据的情况下，性能比SFT训练的模型高出35%。

关键观点4: AlphaDrive的未来探索方向

AlphaDrive初步探索了大模型强化学习和推理技术在自动驾驶领域的应用。未来的探索方向是将AlphaDrive从VLM拓展到VLA，实现一个统一的理解、决策、规划的自动驾驶大模型。

文章预览

OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学，科学等复杂领域达到甚至超过了人类专家的水平，强化学习训练和推理技术是其中的关键。而在自动驾驶，近年来端到端模型大幅提升了规划控车的效果，但是由于端到端模型缺乏常识和推理能力，在处理长尾问题上仍然效果不佳。此前的研究尝试将视觉语言模型（VLM）引入自动驾驶，然而这些方法通常基于预训练模型，然后在驾驶数据上简单的采用有监督微调（SFT），并没有在训练策略和针对决策规划这一最终目标进行更多探索。针对上面的问题，我们提出了 AlphaDrive, 一种针对决策规划的 VLM 的强化学习和推理训练框架。项目主页：https://github.com/hustvl/AlphaDrive 论文链接：https://arxiv.org/abs/2503.07608 具体而言，AlphaDrive 提出了四种针对规划的强化学习 GRPO rewards。另外，我们提出一种基于 SFT 和 RL 的两阶段规 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博