专栏名称: 美团技术团队
10000+工程师,如何支撑中国领先的生活服务电子商务平台?数亿消费者、数百万商户、2000多个行业、几千亿交易额背后是哪些技术在支撑?这里是美团、大众点评、美团外卖、美团配送、美团优选等技术团队的对外窗口。
今天看啥  ›  专栏  ›  美团技术团队

行为正则化与顺序策略优化结合的离线多智能体学习算法

美团技术团队  · 公众号  · 架构  · 2025-02-20 19:58
    

文章预览

总第609 篇 |  2024年第006篇 离线多智能体强化学习( MARL )是一个新兴领域,目标是在从预先收集的数据集中学习最佳的多智能体策略。随着人工智能技术的发展,多智能体系统在诸如自动驾驶、智能家居、机器人协作以及智能调度决策等方面展现了巨大的应用潜力。但现有的离线MARL方法也面临很多挑战,仍存在不协调行为和分布外联合动作的问题。为了应对这些挑战,中山大学计算机学院、美团履约平台技术部开展了学术合作项目,并取得了一些的成果,希望分享给大家。 合作型马尔可夫博弈 定义与基本概念 IGM原则与值分解 离线MARL中的行为正则化马尔可夫博弈 样本内顺序策略优化 样本内顺序策略优化的数学推导 最大熵行为正则化马尔可夫博弈 算法细节 策略评估 策略改进 实际应用及实现细节 实验验证 桥博弈的实验结果 星际争霸II微操作 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览