多智能体协作强化学习中的知识共享

汽车未来科技Lab · 公众号 · · 2024-10-16 15:56

文章预览

本文提出了一种名为谨慎乐观知识共享（ CONS ）的新方法，用于解决合作多智能体强化学习（ MARL ）中的知识共享问题。针对传统的行动建议方法可能导致团队探索受阻的情况，即经验丰富的智能体会分享其知识而较不成熟的智能体则遵循这些建议，导致可能依赖于次优或不良建议的问题，本文的方法允许智能体既分享积极也分享消极的知识，并且接收者会谨慎地同化这些知识。在学习的早期阶段更加重视消极知识，而在后期转向重视积极知识，这一过程帮助提升了探索效率和对抗不利建议的韧性。此框架可以在不增加额外训练成本的情况下与现有的基于 Q-learning 的方法整合，并且在多种具有挑战性的多智能体任务中表现出色。 1 CONSIDER框架 CONSIDER（Cautiously-Optimistic kNowledge Sharing）框架是一种用于合作多智能体强化学习的新方法，旨在通过优化知 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

四川发布 · 表现突出！四川这些单位获省政府通报

昨天

经视直播 · 长沙步行街大屏公开致谢“甲亢哥”，当地回应：现已撤下

昨天

四川大学本科招生 · 校园开放日丨石室中学走进四川大学法学院参加研学活动

昨天

四川大学本科招生 · 校园开放日丨石室中学走进四川大学法学院参加研学活动

昨天

经视直播 · 刚刚，小米发文：已报案！

2 天前

滑州百事通 · 快来看！滑县美女都在做……

9 月前

环境人Environmentor · 清华大学关大博教授当选美国地球物理联合会会士(AGU Fellow)

6 月前