文章预览
OpenAI的o1模型 展示了在测试时计算方法(Test-time Compute methods)可以显著提升LLMs的推理能力,但其背后的机制尚未被充分探索。 通过与现有的测试时计算方法( BoN、Step-wise BoN、Agent Workflow和Self-Refine )进行比较,研究了o1模型在三个领域(数学、代码和常识推理)的一般推理基准上的表现: OpenAI的o1模型、GPT4o以及一些测试时计算方法在选定的四个基准测试(即HotpotQA、Collie、USACO、AIME)上的结果。 表中的‘-’表示该方法不搜索多个响应以生成答案。“直接”指的是让大型语言模型(LLMs)直接从输入文本生成响应,而“测试时”指的是基于GPT-4o使用测试时计算方法。 Best-of-N (BoN) :让LLMs为给定的输入生成多个N个输出,然后选择最合适的响应作为输出。 Step-wise BoN :使LLMs分析问题并将其分解为几个子问题。对于每一步,模型基于之前的子问题和答
………………………………