专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

Q*框架：通过有意识引导无需微调即可提升LLMs多步推理能力

深度学习自然语言处理 · 公众号 · · 2024-06-25 10:44

文章预览

论文： Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning 地址： https://arxiv.org/pdf/2406.14283 单位： Skywork AI、南洋理工这篇文章介绍了一个名为Q的框架，旨在改善大型语言模型（LLMs）在多步推理任务中的性能。作者指出，尽管LLMs在许多自然语言任务上表现出色，但在执行多步推理时，由于其自回归生成过程，容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题，引入了一个通用、多功能且灵活的框架，通过有意识的规划引导LLMs的解码过程。 Q*框架的核心是学习一个即插即用的Q值模型作为启发式函数，以估计预期的未来奖励，有效指导LLMs选择最有希望的下一步推理步骤。这种方法不需要针对当前任务微调LLMs，从而避免了显著的计算开销和在其他任务上性能下降的风险。文章的主要贡献包括：将LLMs的多步推理形式 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博