今天看啥  ›  专栏  ›  微软亚洲研究院

带你读论文 | 值分布强化学习

微软亚洲研究院  · 公众号  · AI  · 2021-01-08 12:44
编者按:值分布强化学习(Distributional Reinforcement Learning)是一类基于价值的强化学习算法,也是一类新兴的强化学习方法。该方法达到了非分布式强化学习方法上新的基准性能,也与神经科学有着内在联系,因此具有很高的研究价值。本文将带大家一起选读多个近期值分布强化学习相关的研究工作,这些工作的发展脉络清晰、研究动机明确,为后续的进一步研究提供了重要参考。什么是值分布强化学习值分布强化学习(Distributional Reinforcement Learning,Distributional RL)是一类基于价值的强化学习算法(value-based Reinforcement Learning,value-based RL)。经典的基于价值的强化学习方法尝试使用期望值对累积回报进行建模,表示为价值函数 V(x) 或动作价值函数 Q(x,a)。而在这个建模过 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照