o1背后的秘密：6种推理模式解析！

深度学习与NLP · 公众号 · · 2024-10-31 00:00

文章预览

OpenAI的o1模型展示了在测试时计算方法（Test-time Compute methods）可以显著提升LLMs的推理能力，但其背后的机制尚未被充分探索。通过与现有的测试时计算方法（ BoN、Step-wise BoN、Agent Workflow和Self-Refine ）进行比较，研究了o1模型在三个领域（数学、代码和常识推理）的一般推理基准上的表现： OpenAI的o1模型、GPT4o以及一些测试时计算方法在选定的四个基准测试（即HotpotQA、Collie、USACO、AIME）上的结果。表中的‘-’表示该方法不搜索多个响应以生成答案。“直接”指的是让大型语言模型（LLMs）直接从输入文本生成响应，而“测试时”指的是基于GPT-4o使用测试时计算方法。 Best-of-N (BoN) ：让LLMs为给定的输入生成多个N个输出，然后选择最合适的响应作为输出。 Step-wise BoN ：使LLMs分析问题并将其分解为几个子问题。对于每一步，模型基于之前的子问题和答 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

深夜书屋 · 倪海厦老师提出了自学中醫的特定顺序

15 小时前

界面新闻 · 去年中国折叠屏手机出货量占全球一半以上

昨天

读书杂志 · 待兔轩札记｜太史公读《论语》

2 天前

纯银V · 打车打到臭车是真的。你有没有发现，“臭车” 这个话题是从近一两年-20250108223607

3 天前

纯银V · 对大多数普通人来说，在社交网络上作为小透明，被看见，被回应唯一的-20250108113254

3 天前

全球风口 · AI换脸疯狂捞金，背后的监管与道德问题

6 月前

晓磊的基金生活 · 又进入到了每天躺平吃利息的“贤者模式” -20240627233010

6 月前

纯银V · 🤷♂️🤷♂️🤷♂️-20240914134139

3 月前