文章预览
24年9月来自UCLA和谷歌Waymo的论文“使用强化学习微调改进自动驾驶的智体行为”。 自动驾驶汽车研究的一个主要挑战是建模智体行为,它具有关键的应用,包括为非车载评估构建逼真可靠的模拟,以及为车内规划预测交通智体运动。虽然监督学习已在各个领域的智体建模中取得成功,但这些模型在测试时部署时可能会受到分布变化的影响。这项工作用强化学习(RL)对行为模型进行闭环微调来提高智体行为的可靠性。在 Waymo Open Sim Agents (WOSAC)挑战赛中,该方法展示了改进的整体性能,以及改进的目标指标,例如碰撞率。此外,提出一种策略评估基准,直接评估模拟智体衡量自动驾驶汽车规划器质量的能力,并证明本文方法在这个新基准上的有效性。 基于 Transformer 的模型已经应用于各个领域,如文本生成 [4]、图像生成 [26]、机器人 [43]、药物研
………………………………