专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【博士论文】安全的线上和线下强化学习,142页pdf

专知  · 公众号  ·  · 2024-06-13 14:00
    

文章预览

强化学习(RL)代理可以在几乎不了解底层环境的情况下解决通用问题。这些代理通过经验进行学习,采用试错策略,这种随机化过程可能会带来有效的创新,但也可能引发不良事件。因此,为了使RL在日常生活中得到应用,我们必须确保其可靠性和安全性。安全需求往往与RL代理通常进行的天真随机探索不兼容。安全RL研究如何使这些代理更加可靠以及如何确保它们行为得当。我们在在线设置中研究这些问题,即代理直接与环境交互,以及离线设置中,代理仅能访问历史数据而不直接与环境交互。 虽然RL中的安全性有许多方面,但在本论文中,我们关注两个方面。首先是安全 策略改进问题,它考虑如何可靠地离线计算策略。其次是约束强化学习问题,它研究如何学习满足一组安全约束的策略。接下来,我们详细阐述这些观点以及我们如何处理它们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览