【威斯康星大学-麦迪逊分校】值得信赖的人机协作：利用人类反馈和物理知识进行强化学习，实现安全自动驾驶

自动驾驶专栏 · 公众号 · · 2024-09-30 09:10

文章预览

点击下方卡片，关注“ 自动驾驶专栏 ”公众号自动驾驶干货，即可获取论文链接： https://arxiv.org/pdf/2409.00858 代码链接：https://github.com/zilin-huang/PE-RLHF 项目演示：https://zilin-huang.github.io/PE-RLHF-website/ 摘要本文介绍了值得信赖的人机协作：利用人类反馈和物理知识进行强化学习，实现安全自动驾驶。在自动驾驶领域中，开发安全且可靠的自动驾驶策略仍然是一个重大挑战。最近，基于人类反馈的强化学习（RLHF）因其提高训练安全性和采样效率的潜力而引起广泛关注。然而，当面对不完美的人类演示时，现有的RLHF方法往往会失效，这可能会导致训练振荡，甚至比基于规则的方法性能更差。受到人类学习过程的启发，本文提出了具有人类反馈的物理增强强化学习（PE-RLHF）框架。该新框架将人类反馈（例如，人类干预和演示）和物理知识（例如，交 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

小学数学 · 【口算练习64】1-6年级小学数学口算专项练习

2 小时前

中国能源报 · 王楚钦夺冠！4比0横扫张本智和！

昨天

中国能源报 · 王楚钦夺冠！4比0横扫张本智和！

昨天

超级数学建模 · 凭良心说谁不背后蛐蛐人呢，但是最好起个代号什么的否则...

昨天

小学数学 · 小学奥数知识点汇总，所有奥数知识点都在这啦！

2 天前

小学数学 · 奥数课堂：燕尾模型的基本概念

5 天前

云南网 · 受强降雨影响！云南这条公路封闭维修→

4 月前

资治通鉴读史悟道 · 梁父吟双井绿茶

3 月前

福布斯 · 厌食症康复后，这位创始人筹集了1.1亿美元在线治疗这种致命疾病

2 月前

丁祖昱评楼市 · 地产头部四大央企谁更赚钱？

2 月前