专栏名称: 深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
今天看啥  ›  专栏  ›  深度学习与NLP

o1背后的秘密:6种推理模式解析!

深度学习与NLP  · 公众号  ·  · 2024-10-31 00:00

文章预览

OpenAI的o1模型 展示了在测试时计算方法(Test-time Compute methods)可以显著提升LLMs的推理能力,但其背后的机制尚未被充分探索。 通过与现有的测试时计算方法( BoN、Step-wise BoN、Agent Workflow和Self-Refine )进行比较,研究了o1模型在三个领域(数学、代码和常识推理)的一般推理基准上的表现: OpenAI的o1模型、GPT4o以及一些测试时计算方法在选定的四个基准测试(即HotpotQA、Collie、USACO、AIME)上的结果。 表中的‘-’表示该方法不搜索多个响应以生成答案。“直接”指的是让大型语言模型(LLMs)直接从输入文本生成响应,而“测试时”指的是基于GPT-4o使用测试时计算方法。 Best-of-N (BoN) :让LLMs为给定的输入生成多个N个输出,然后选择最合适的响应作为输出。 Step-wise BoN :使LLMs分析问题并将其分解为几个子问题。对于每一步,模型基于之前的子问题和答 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览