文章预览
Abstract 在自动驾驶领域,开发安全且可信赖的自动驾驶策略仍然是一项重大挑战。近年来,结合人类反馈的强化学习(RLHF)因其提升训练安全性和采样效率的潜力而备受关注。然而,现有的RLHF方法在面对不完美的人类示范时,往往会表现不佳,可能导致训练振荡甚至表现比基于规则的方法更差。受人类学习过程的启发,我们提出了物理增强的人类反馈强化学习(PE-RLHF)。该新框架协同融合了人类反馈(如人类干预和示范)和物理知识(如交通流模型)进入强化学习的训练回路中。PE-RLHF的关键优势在于,即使人类反馈质量下降,所学习的策略仍能至少达到给定物理策略的表现,从而确保了可信赖的安全性改进。PE-RLHF引入了一种物理增强的人机协作(PE-HAI)模式,用于在动态行动选择中结合人类和物理策略,并通过代理价值函数采用无奖励的方法
………………………………