专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
目录
相关文章推荐
今天看啥  ›  专栏  ›  数据派THU

【斯坦福博士论文】非平稳环境中的深度强化学习算法

数据派THU  · 公众号  · 大数据  · 2024-12-16 17:53
    

文章预览

来源:专知 本文 约1000字 ,建议阅读 5 分钟 在本论文中,我们聚焦于为这种动态环境设计算法 。 强化学习通常假设代理的学习环境是静态且不变的。然而,这一假设在强化学习的实际应用中很少成立。例如,在机器人应用中,非平稳性可能以多种方式表现出来,如需要在不可预测的地形中导航,或帮助人类用户处理其随时间变化的偏好。因此,快速适应环境变化的能力对于成功的决策系统至关重要。为了更正式地建模这种非平稳性,我们考虑一个在决策时间步上不断发展的学习环境。 更具体地说,学习环境中存在随时间变化的特征,并且这些特征可能会随着代理的行为而变化 。为了应对这种动态性,代理必须学会最终独立应对这种非平稳性,并根据环境变化调整其行为,例如做出不同的决策以更好地帮助具有新偏好的用户。 在本论文中,我们 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览