o1圈杀疯了，阿里又开源Marco-o1

PaperAgent · 公众号 · · 2024-11-23 10:07

文章预览

自OpenAI o1发布后引发了大型推理模型（LRM）研究热潮，这不，阿里又开源了 Marco-o1 。 Marco-o1更加重视开放式问题的解决，目标是解决这个问题：“o1模型能否有效地推广到缺乏明确标准且奖励难以量化的更广泛领域？” Marco-o1由链式思考（CoT）微调、蒙特卡洛树搜索（MCTS）、反射机制和创新的推理策略驱动——针对复杂的现实世界问题任务进行了优化。经典的草莓（ strawberry ）问题，轻松拿下在MGSM上Marco-o1准确性得到了提升通过MCTS扩展解决方案空间将蒙特卡洛树搜索（Monte Carlo Tree Search, MCTS）与大型语言模型（LLMs）集成，以增强Marco-o1模型的推理能力： Marco-o1整体框架 MCTS框架中的节点和动作：在MCTS框架中，每个节点代表问题解决过程中的一个推理状态。从节点可能的动作是由LLM生成的输出，这些输出代表推理链中的潜在步骤或微步骤 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博