两个小模型互相验证，直接比肩大模型？微软的rStar甚至没用CoT和微调

深度图学习与大模型LLM · 公众号 · · 2024-08-23 08:35

文章预览

机器之心报道编辑：Panda 本文转自机器之心原文链接：https://mp.weixin.qq.com/s/_ETAL-qyBpj5fBii4nZ7DQ 互相检查，让小模型也能解决大问题。欢迎向本公众号投稿文献解读类原创文章, 以及海内外招生、访学、招聘等稿件，投稿邮箱： gnn4ai@outlook.com，或者请联系微信： GNN4AI。众所周知，LLM 很强大，但执行复杂推理的能力还不够强。举个例子，在 GSM8K 数据集上，Mistral-7B 即使使用思维链（CoT）等技术，也只能达到 36.5% 的准确度。尽管微调确实也能有效地提升推理能力，但大多数 LLM 依靠的微调数据都是经过 GPT-4 等更强大模型蒸馏过的，甚至可能原本就是这些强大模型合成的。同时，研究者们也在积极开发一种能提供辅助但也更困难的方法：使用一个更优的教师 LLM 来提升推理能力。为了在没有更优模型的前提下提升推理能力，一种颇有希望的范式是利 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博