【斯坦福博士论文】非平稳环境中的深度强化学习算法

数据派THU · 公众号 · 大数据 · 2024-12-16 17:53

文章预览

来源：专知本文约1000字，建议阅读 5 分钟在本论文中，我们聚焦于为这种动态环境设计算法。强化学习通常假设代理的学习环境是静态且不变的。然而，这一假设在强化学习的实际应用中很少成立。例如，在机器人应用中，非平稳性可能以多种方式表现出来，如需要在不可预测的地形中导航，或帮助人类用户处理其随时间变化的偏好。因此，快速适应环境变化的能力对于成功的决策系统至关重要。为了更正式地建模这种非平稳性，我们考虑一个在决策时间步上不断发展的学习环境。更具体地说，学习环境中存在随时间变化的特征，并且这些特征可能会随着代理的行为而变化。为了应对这种动态性，代理必须学会最终独立应对这种非平稳性，并根据环境变化调整其行为，例如做出不同的决策以更好地帮助具有新偏好的用户。在本论文中，我们 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博