专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
今天看啥  ›  专栏  ›  数据派THU

【牛津大学博士论文】改进单智能体和多智能体深度强化学习方法

数据派THU  · 公众号  · 大数据  · 2024-10-31 17:00
    

文章预览

来源:专知 本文 约1000字 ,建议阅读 5 分钟 本论文的重点是识别一些阻碍RL代理在特定环境中学习的关键挑战,并改进现有方法,以提高代理的性能、样本效率以及学习到的策略的泛化能力。 强化学习(RL)是一种框架,代理通过与环境交互获取数据驱动的反馈,利用奖惩机制学习如何做出决策。深度强化学习(Deep RL)将深度学习与强化学习相结合,利用深度神经网络的强大功能来处理复杂的高维数据。在深度RL框架下,我们的机器学习研究社区在使机器能够在长时间范围内做出连续决策方面取得了巨大的进展。这些进展包括在Atari游戏中达到超越人类的表现[Mnih等,2015],掌握围棋并击败世界冠军[Silver等,2017],提供强大的推荐系统[Gomez-Uribe和Hunt,2015,Singh等,2021]。本论文的重点是识别一些阻碍RL代理在特定环境中学习的关键挑战,并改进现有 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览