2024-09-30 05:18
本条微博链接
通过在actor-critic递归架构中使用卡尔曼滤波层进行序列建模,改进了部分可观测强化学习任务中的状态表示,尤其适用于需要状态不确定性推理的任务。
[LG]《Uncertainty Representations in State-Space Layers for Deep Reinforcement Learning under Partial Observability》C E. Luis, A G. Bottero, J Vinogradska, F Berkenkamp
………………………………