今天看啥  ›  专栏  ›  PaperAgent

o1圈杀疯了,阿里又开源Marco-o1

PaperAgent  · 公众号  ·  · 2024-11-23 10:07

文章预览

自OpenAI o1发布后引发了 大型推理模型(LRM)研究 热潮,这不,阿里又开源了 Marco-o1 。 Marco-o1更加重视开放式问题的解决,目标是解决这个问题:“o1模型能否有效地推广到缺乏 明确标准且奖励难以量化 的更广泛领域?” Marco-o1由 链式 思考(CoT)微调、蒙特卡洛树搜索(MCTS)、反射机制和创新的推理策略 驱动——针对复杂的现实世界问题任务进行了优化。 经典的草莓( strawberry )问题,轻松拿下 在MGSM上Marco-o1准确性得到了提升 通过MCTS扩展解决方案空间 将蒙特卡洛树搜索(Monte Carlo Tree Search, MCTS)与大型语言模型(LLMs)集成,以增强Marco-o1模型的推理能力: Marco-o1整体框架 MCTS框架中的节点和动作 : 在MCTS框架中,每个节点代表问题解决过程中的一个推理状态。 从节点可能的动作是由LLM生成的输出,这些输出代表推理链中的潜在步骤或微步骤 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览