专栏名称: AI for Research
每天分享最新最热的Arxiv论文、一起来关注大模型、AIGC、AGI
今天看啥  ›  专栏  ›  AI for Research

CPL:关键规划步骤学习提升LLM在推理任务中的泛化能力

AI for Research  · 公众号  ·  · 2024-09-18 17:52
    

文章预览

前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、模型结构改进的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. CPL:关键规划步骤学习提升LLM在推理任务中的泛化能力   标题: CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks   机构: 北京大学、微软亚洲研究院   相关领域: 模型结构改进、模型评估、奖励模型、指令微调   作者: Tianlong Wang,  Xueting Han,  Jing Bai   分析: 这篇论文提出了一种名为CPL(关键规划步骤学习)的方法,用于提高大型语言模型(LLM)在多样化推理任务中的泛化能力。它通过利用蒙特卡洛树搜索(MCTS)来探索多步推理任务中的不同规划步骤,从而学习到基于长期结果的步骤级规划偏好,增强了模型的规划能力和推理能力。此外,该方法还提出了Step-APO,通过集成MCTS获得的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览