【斯坦福博士论文】数据高效的强化学习：在复杂环境中决定学习什么

专知 · 公众号 · · 2024-09-23 12:00

文章预览

强化学习是机器学习中专注于序列决策问题的范式。与机器学习和统计学的许多其他领域一样，数据效率常常是一个主要关注点；即，一个序列决策的智能体需要多少试验与错误的交互数据才能学习到所需的行为？数据效率低下的强化学习面临的一个关键障碍是探索问题，即智能体必须在获取新知识与利用当前知识以最大化近期性能之间找到平衡。传统的探索与利用平衡的文献主要针对智能体能够在相关的时间框架内接近最优性能的环境。然而，现代人工决策智能体所面对的复杂环境（例如万维网）使得在任何相关的时间框架内接近最优性能几乎无望。本论文的重点是开发应对复杂环境中探索问题的有原则且实用的方法。我们的方法基于一个简单的观察，即面对如此复杂的环境时，智能体不应致力于获取足够的信息以实现最优行为，而应瞄准一个 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博