文章预览
点击下方 卡片 ,关注“ 自动驾驶专栏 ”公众号 自动驾驶干货 ,即可获取 论文链接: https://arxiv.org/pdf/2410.18608 项目主页:https://sites.google.com/view/transparent-reward 摘要 本文介绍了通过无监督特征选择来学习透明奖励模型。在机器人操作和自动驾驶等复杂的现实世界任务中,采集专家演示往往比指定精确的学习目标和任务描述更为简单。从专家数据中学习可以通过行为克隆或者学习奖励函数来实现,即逆强化学习。后者允许在推断的奖励函数的引导下,使用训练分布外的额外数据进行训练。本文提出了一种从自动选择的状态特征构建紧凑且透明的奖励模型的新方法。这些推断的奖励具有明确的形式,通过从头开始训练标准的强化学习算法来学习与专家行为密切匹配的策略。本文在具有连续且高维状态空间的各种机器人环境中验证了所提出方法的性能
………………………………