文章预览
作者:青云遮夜雨 链接:https://zhuanlan.zhihu.com/p/8752961062 前言 OpenAI 最近推出了开创性的 o1 模型,以其卓越的推理能力而闻名。该模型在 AIME 和 CodeForces 等平台上表现出色,超越了其他领先模型。受此成功的启发,阿里研究团队旨在进一步拓展大型语言模型 (LLM) 的边界,增强其推理能力,以应对复杂的现实世界挑战,开源了Marco-o1推理模型。 Marco-o1更加重视开放式问题的解决,目标是解决这个问题:“o1模型能否有效地推广到缺乏 明确标准且奖励难以量化 的更广泛领域?” Marco-o1 通过思维链 (CoT) 微调、蒙特卡罗树搜索 (MCTS)、反思机制和创新的推理策略提供支持——这些策略经过优化,适用于复杂的现实世界问题解决任务。 Github: [https://github.com/AIDC-AI/Marco-o1] Hugging Face: [https://huggingface.co/AIDC-AI/Marco-o1] Arxiv: [https://arxiv.org/abs/2411.14405] 论文主要特点
………………………………