o1规划能力首测！已超越语言模型范畴，preview终于赢mini一回

量子位 · 公众号 · AI · 2024-09-28 13:19

主要观点总结

本文介绍了亚利桑那州立大学的一项最新研究，该研究对比了o1-preview、o1-mini与Llama3.1-405B模型在规划任务上的表现。结果显示o1-preview在规划任务上表现显著优于o1-mini和传统模型，特别是在超难任务上的准确率比Llama3.1-405B高了11倍。文章还提到了o1系列模型，特别是o1-preview的超强规划能力，但也指出了其不足之处，如随着规划长度的增加性能迅速下降，识别不可解问题的准确率不足等。此外，文章还涉及了模型的成本和时间消耗问题。

关键观点总结

关键观点1: o1-preview在规划任务上表现优于o1-mini和传统模型

最新研究显示，o1-preview在规划任务上显著优于o1-mini和Llama3.1-405B模型，特别是在超难任务上的准确率比Llama3.1-405B高了11倍。

关键观点2: o1系列模型具有超强规划能力

o1系列模型，特别是o1-preview展现出强大的规划能力，但在规划长度增加时性能会迅速下降，同时识别不可解问题的准确率也存在不足。

关键观点3: 模型的成本和时间消耗是重要考量

相比于传统大模型，o1-mini的成本相比GPT4-Turbo直接翻番，而o1-preview的成本更是高出了数量级。在选择使用o1系列模型时，成本和时间消耗是需要考虑的重要因素。

文章预览

克小西发自凹非寺量子位 | 公众号 QbitAI o1-preview终于赢过了mini一次！亚利桑那州立大学的最新研究表明， o1-preview在规划任务上，表现显著优于o1-mini 。相比于传统模型的优势更是碾压级别，在超难任务上的准确率比Llama3.1-405B高了11倍。要知道之前，OpenAI自己人也发了一张图，显示preview论性能比不过满血版，论经济性又不如mini，处于一个十分尴尬的地位。作者在推文中表示，尽管存在可保证性和成本问题，但仅针对CoT而言，o1已经超越了大模型的“近似检索”性质，提升到了“近似推理”层次。并且在论文中，o1全程被称作LRM （Large Reasoning Model，大型推理模型），而非一般大型语言模型的LLM。 o1团队的核心成员Noam Brown也转发了这项研究，顺便给o1-preview打了个call。还有网友翻出了隔壁Meta的LeCun半个多月前的推文，当时LeCun说大模型没有规划 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博