【博士论文】价值导向强化学习基础探索

数据派THU · 公众号 · 大数据 · 2024-10-20 17:42

文章预览

来源：专知本文约2500字，建议阅读 5 分钟论文提出了一种修正方法，以更好地对齐这些目标，从而提供了更准确的预测目标。价值导向强化学习是一种序列决策方法，通过对未来回报的长远预测来指导决策。本论文旨在理解价值导向方法所面临的问题，并提出算法思想以解决这些问题。论文详细介绍了改进价值导向方法的三个贡献领域。第一个贡献领域扩展了用于固定时域预测的时序差分方法。无论问题设置如何，使用固定时域的回报近似可以避免困扰基于函数近似的离策略时序差分方法的已知稳定性问题。第二个贡献领域提出了一个价值感知的重要性权重框架用于离策略学习，并推导出其最小方差实例。这一方法缓解了基于重要性采样的离策略修正中的方差问题。最后，第三个贡献领域指出在离散时间与连续时间回报之间存在不一致性，当 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博