今天看啥  ›  专栏  ›  汽车未来科技Lab

多智能体协作强化学习中的知识共享

汽车未来科技Lab  · 公众号  ·  · 2024-10-16 15:56

文章预览

本文提出了一种名为谨慎乐观知识共享( CONS )的新方法,用于解决合作多智能体强化学习( MARL )中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况,即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议,导致可能依赖于次优或不良建议的问题,本文的方法允许智能体既分享积极也分享消极的知识,并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识,而在后期转向重视积极知识,这一过程帮助提升了探索效率和对抗不利建议的韧性。此框架可以在不增加额外训练成本的情况下与现有的基于 Q-learning 的方法整合,并且在多种具有挑战性的多智能体任务中表现出色。 1 CONSIDER框架 CONSIDER(Cautiously-Optimistic kNowledge Sharing)框架是一种用于合作多智能体强化学习的新方法,旨在通过优化知 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览