专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

【斯坦福博士论文】数据高效的强化学习:在复杂环境中决定学习什么

数据派THU  · 公众号  · 大数据  · 2024-09-26 17:00
    

文章预览

来源:专知 本文 为论文介绍 ,建议阅读 5 分钟 本论文的重点是开发应对复杂环境中探索问题的有原则且实用的方法。 强化学习是机器学习中专注于序列决策问题的范式。与机器学习和统计学的许多其他领域一样,数据效率常常是一个主要关注点;即,一个序列决策的智能体需要多少试验与错误的交互数据才能学习到所需的行为?数据效率低下的强化学习面临的一个关键障碍是探索问题,即智能体必须在获取新知识与利用当前知识以最大化近期性能之间找到平衡。传统的探索与利用平衡的文献主要针对智能体能够在相关的时间框架内接近最优性能的环境。然而,现代人工决策智能体所面对的复杂环境(例如万维网)使得在任何相关的时间框架内接近最优性能几乎无望。 本论文的重点是开发应对复杂环境中探索问题的有原则且实用的方法。我们的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览