专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【斯坦福博士论文】非平稳环境中的深度强化学习算法

专知  · 公众号  ·  · 2024-12-10 11:00
    

文章预览

强化学习通常假设代理的学习环境是静态且不变的。然而,这一假设在强化学习的实际应用中很少成立。例如,在机器人应用中,非平稳性可能以多种方式表现出来,如需要在不可预测的地形中导航,或帮助人类用户处理其随时间变化的偏好。因此,快速适应环境变化的能力对于成功的决策系统至关重要。为了更正式地建模这种非平稳性,我们考虑一个在决策时间步上不断发展的学习环境。 更具体地说,学习环境中存在随时间变化的特征,并且这些特征可能会随着代理的行为而变化 。为了应对这种动态性,代理必须学会最终独立应对这种非平稳性,并根据环境变化调整其行为,例如做出不同的决策以更好地帮助具有新偏好的用户。 在本论文中,我们聚焦于为这种动态环境设计算法 。具体而言,我们首先提出一个统一的框架,将环境的相关特征捕 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览