文章预览
前言: 平淡无奇的一天又来了,今天要分享的内容主要是关于大模型、大语言模型、模型结构改进的,喜欢的小伙伴赶紧去阅读相关论文吧。 1. CPL:关键规划步骤学习提升LLM在推理任务中的泛化能力 标题: CPL: Critical Planning Step Learning Boosts LLM Generalization in Reasoning Tasks 机构: 北京大学、微软亚洲研究院 相关领域: 模型结构改进、模型评估、奖励模型、指令微调 作者: Tianlong Wang, Xueting Han, Jing Bai 分析: 这篇论文提出了一种名为CPL(关键规划步骤学习)的方法,用于提高大型语言模型(LLM)在多样化推理任务中的泛化能力。它通过利用蒙特卡洛树搜索(MCTS)来探索多步推理任务中的不同规划步骤,从而学习到基于长期结果的步骤级规划偏好,增强了模型的规划能力和推理能力。此外,该方法还提出了Step-APO,通过集成MCTS获得的
………………………………