文章预览
知乎:DILab决策实验室(已授权) 链接:https://zhuanlan.zhihu.com/p/898641863 0. 概览 近年来,深度强化学习(Deep Reinforcement Learning, DRL)在诸多领域取得了显著的成果。然而,随着网络规模的扩大和训练策略的复杂化,DRL 面临着网络可塑性下降、样本效率低下等挑战。其中,重放比率(Replay Ratio),即梯度更新次数与收集的环境步数之间的比率 [1],被发现对网络的可塑性和整体性能有着深远的影响。关于神经网络的可塑性的更多分析可参考往期博客: https://zhuanlan.zhihu.com/p/708244682 本博客旨在探讨 重放比率 与 网络可塑性 之间的关系,以及如何利用这一关系来改进 DRL 的性能和扩展能力。为此,我们选取了以下三项代表性的研究工作进行深入分析: 《深度强化学习中的“休眠神经元”现象》[1] 该工作揭示了在高重放比率下,DRL 网络中出现大量休眠神经
………………………………