专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

【剑桥大学博士论文】深度记忆模型与部分可观察下的高效强化学习

数据派THU  · 公众号  · 大数据  · 2024-12-28 17:00
    

文章预览

来源:专知 本文 约1000字 ,建议阅读 5 分钟 我们提出了一种新的训练记忆模型的方法,从而提高了时间、空间和数据的效率。 强化学习是一种优化决策的框架,考虑到行动的长期后果。 强化学习的深度变种已成为在复杂环境中进行决策的强大工具。以往的工作已经在复杂游戏如围棋和Atari中取得了突破,甚至超越了地球上一些最优秀的人类选手。然而,这些令人印象深刻的成就通常局限于游戏或仿真环境。那么,是什么阻碍它们进入现实世界呢?在本文中,我们解决了一个主要的瓶颈:有限和不完美的感官信息。 在许多现实任务中,感官信息往往是噪声或不完整的,这打破了强化学习的核心假设。解决这一挑战的方案实际上是众所周知的——即使用记忆。记忆是感官信息的存储与回忆,用于决策过程,这类似于人类和许多其他生物体内记忆的功 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览