文章预览
大家好,这里和大家分享一篇我们在多智能体强化学习(MARL)领域关于新的训练范式的文章(Accepted by IJCAI 2024)。 这篇文章展示了如何通过个性化的集中式训练得到一个强大的集中式执行算法,然后通过知识蒸馏的方式使得智能体决策既受益于全局信息同时又能实现分散式执行,从而提升多智能体系统的协作性能。 论文标题: PTDE: Personalized Training with Distilled Execution for Multi-Agent Reinforcement Learning 论文链接: https://arxiv.org/pdf/2210.08872 代码链接: https://github.com/AntNLP/nope_head_scale 一、研究背景与挑战 在现实世界的许多任务中,如多机器人导航、避障、无人机路径规划等,都可以建模为多智能体系统的决策问题。这些场景通常受到局部可观测和分散式执行的约束。 最常见的范式是 集中式训练分散式执行 (Centralized Training with Decentralized Execution, CTDE)
………………………………