文章预览
论文: Q*: Improving Multi-step Reasoning for LLMs with Deliberative Planning 地址: https://arxiv.org/pdf/2406.14283 单位: Skywork AI、南洋理工 这篇文章介绍了一个名为Q的框架,旨在改善大型语言模型(LLMs)在多步推理任务中的性能。作者指出,尽管LLMs在许多自然语言任务上表现出色,但在执行多步推理时,由于其自回归生成过程,容易产生错误、幻觉和不一致的陈述。Q框架通过将多步推理视为启发式搜索问题,引入了一个通用、多功能且灵活的框架,通过有意识的规划引导LLMs的解码过程。 Q*框架的核心是学习一个即插即用的Q值模型作为启发式函数,以估计预期的未来奖励,有效指导LLMs选择最有希望的下一步推理步骤。这种方法不需要针对当前任务微调LLMs,从而避免了显著的计算开销和在其他任务上性能下降的风险。 文章的主要贡献包括: 将LLMs的多步推理形式
………………………………