文章预览
Reinforcement Learning from Human Feedback for Lane Changing of Autonomous Vehicles in Mixed Traffic 论文: https://arxiv.org/abs/2408.04447 来自同济大学和香港中文大学的研究团队聚焦于自动驾驶车辆在混合交通环境中的换道决策问题,提出了一种基于人类反馈的强化学习(RLHF)方法。这种方法首先通过预训练获得一个能够安全执行换道的基础策略,然后利用人类评估员对换道行为的标注数据来训练奖励模型,进而指导策略的微调,以模仿人类的换道偏好。 研究中采用了保守和激进两种不同的换道风格进行实验,通过模拟平台验证了RLHF在不同交通场景下的适用性和有效性。该研究的创新之处在于将人类主观偏好量化为奖励信号,以此来引导和优化自动驾驶车辆的决策过程。 与传统的基于规则的方法相比,RLHF 能够更好地适应交通环境的动态变化,并提供更加个性化和人性化
………………………………