7B羊驼战胜540B“谷歌版GPT”，MIT用博弈论调教大模型，无需训练就能完成

FightingCV · 公众号 · · 2023-10-19 09:00

文章预览

关注“ FightingCV ”公众号回复“ AI ”即可获得超100G人工智能的教程点击进入→ FightingCV交流群基于博弈论，MIT提出了一种新的大模型优化策略。在其加持之下，7B参数的Llama在多个数据集上超越了540B的“谷歌版GPT”PaLM。而且整个过程无需对模型进行额外训练，消耗的算力资源更低。这种基于博弈论制定的优化策略被称为均衡排名（Equilibrium Ranking）。研究团队将大模型语言解码过程转化为正则化不完全信息博弈。这个词可以拆解成“正则化”和“不完全信息博弈”两部分，我们将在原理详解部分展开介绍。在博弈过程中，模型不断对生产的答案进行优化，让生成结果更加符合事实。实验结果表明，在多个测试数据集上，均衡排名优化方式的效果显著优于其他方式，甚至其他模型。那么，均衡排序方法具体是如何将博弈论应用到大模型当 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博