专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【博士论文】价值导向强化学习基础探索,99页pdf

专知  · 公众号  ·  · 2024-10-14 12:00

文章预览

价值导向强化学习是一种序列决策方法,通过对未来回报的长远预测来指导决策。本论文旨在理解价值导向方法所面临的问题,并提出算法思想以解决这些问题。论文详细介绍了改进价值导向方法的三个贡献领域。第一个贡献领域扩展了用于固定时域预测的时序差分方法。无论问题设置如何,使用固定时域的回报近似可以避免困扰基于函数近似的离策略时序差分方法的已知稳定性问题。第二个贡献领域提出了一个价值感知的重要性权重框架用于离策略学习,并推导出其最小方差实例。这一方法缓解了基于重要性采样的离策略修正中的方差问题。最后,第三个贡献领域指出在离散时间与连续时间回报之间存在不一致性,当其中一个被视为另一个的近似时,这一差异尤为明显。为此,论文提出了一种修正方法,以更好地对齐这些目标,从而提供了更准 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览