专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

不用CoT和微调！微软提出自博弈相互推理，小模型互相验证直接比肩大模型

PaperWeekly · 公众号 · 科研 · 2024-08-20 18:48

文章预览

©作者 | Panda 来源 | 机器之心众所周知，LLM 很强大，但执行复杂推理的能力还不够强。举个例子，在 GSM8K 数据集上，Mistral-7B 即使使用思维链（CoT）等技术，也只能达到 36.5% 的准确度。尽管微调确实也能有效地提升推理能力，但大多数 LLM 依靠的微调数据都是经过 GPT-4 等更强大模型蒸馏过的，甚至可能原本就是这些强大模型合成的。同时，研究者们也在积极开发一种能提供辅助但也更困难的方法：使用一个更优的教师 LLM 来提升推理能力。为了在没有更优模型的前提下提升推理能力，一种颇有希望的范式是利用 LLM 自身之中的知识。举个例子，一种名为 RAP 的方法采用了一种自我探索式的解决方法，即通过自我奖励的反馈来迭代式地提升 LLM 的推理性能。不幸的是，研究表明这一范式具有两大根本性问题。第一，在执行推理时，LLM 往往难以有 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博