文章预览
背景 自从OpenAI o1发布以来,目前尚没有OpenAI没有公开其技术方案,本文汇总了目前关于o1背后关键技术的猜想及相关工作。 1. 基于Prompt prompt-based :通过prompt的方法让其通过 step by step reasoning & self-correcting 1.1 CoT Chain-of-Thought Prompting Elicits Reasoning in Large Language Models: https://arxiv.org/pdf/2201.11903 介绍了"思维链提示"(chain-of-thought prompting)方法,这是一种通过在提示中加入中间推理步骤来提高大型语言模型复杂推理能力的技术。 CoT要求 LLM 展示其内部推理流程(例如,“让我们一步一步思考”) CoT 的一个变体是“CoT elf-consistency(自洽性)”,即并行采样多个 CoT 轨迹并使用多数投票来找到“正确”的答案。 实验证明,思维链提示显著提升了模型在算术、常识和符号推理任务上的表现。特别是在GSM8K数学问题基准测试中,使用此方法的PaLM 540B模型达到了新
………………………………