文章预览
报告主题: 如何创建理性的基于LLM的智能体?博弈论工作流 报告日期: 11 月27日(周三)10:30-11:30 报告要点: 完全信息博弈 : 这些是经典博弈,例如囚徒困境。 我们选择了5个同时博弈和5个顺序博弈进行研究。 研究发现,除了o1以外,其余LLM普遍缺乏计算纳什均衡的强大能力,也就是说,它们的理性水平较低。 此外,它们对噪声、扰动或随机对话缺乏鲁棒性。 因此,基于经典博弈论方法(例如逐步消除占优策略和逆向归纳法),我们设计了两个工作流,帮助大模型在推理过程中逐步计算纳什均衡。 不完全信息博弈 : 我们使用了经典的“Deal or No Deal”资源分配博弈,该博弈具有私人估值,智能体无法知道对方对资源的估值。 在这种情况下,博弈论并未提供明确的解决方案,以往研究主要依赖强化学习。 研究表明,Sonnet和o1在谈判成功率和结果
………………………………