一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Q*框架:通过有意识引导无需微调即可提升LLMs多步推理能力

深度学习自然语言处理  · 公众号  ·  · 2024-06-25 10:44

文章预览

论文: Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning 地址: https://arxiv.org/pdf/2406.14283 单位: Skywork AI、南洋理工 这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,由于其自回归生成过程,容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题,引入了一个通用、多功能且灵活的框架,通过有意识的规划引导LLMs的解码过程。 Q*框架的核心是学习一个即插即用的Q值模型作为启发式函数,以估计预期的未来奖励,有效指导LLMs选择最有希望的下一步推理步骤。这种方法不需要针对当前任务微调LLMs,从而避免了显著的计算开销和在其他任务上性能下降的风险。 文章的主要贡献包括: 将LLMs的多步推理形式 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览