文章预览
来源:专知 本文 约1000字 ,建议阅读 5 分钟 在本论文中,我们聚焦于为这种动态环境设计算法 。 强化学习通常假设代理的学习环境是静态且不变的。然而,这一假设在强化学习的实际应用中很少成立。例如,在机器人应用中,非平稳性可能以多种方式表现出来,如需要在不可预测的地形中导航,或帮助人类用户处理其随时间变化的偏好。因此,快速适应环境变化的能力对于成功的决策系统至关重要。为了更正式地建模这种非平稳性,我们考虑一个在决策时间步上不断发展的学习环境。 更具体地说,学习环境中存在随时间变化的特征,并且这些特征可能会随着代理的行为而变化 。为了应对这种动态性,代理必须学会最终独立应对这种非平稳性,并根据环境变化调整其行为,例如做出不同的决策以更好地帮助具有新偏好的用户。 在本论文中,我们
………………………………