社区供稿｜阿里国际AI团队最新开源！探索面向开放性问题的推理模型 Marco-o1

Hugging Face · 公众号 · · 2024-11-23 00:29

文章预览

我们发布了最新的Marco-o1模型，Marco-o1不仅关注具有标准答案的学科（例如代码、数学等）领域，而且更加强调开放式问题的解决方案。我们的目标是解决：“o1这类模型能否有效的推广到难以量化且缺乏明确奖励的其他领域上”这一问题。 Arxiv： https://arxiv.org/abs/2411.14405 Github：https://github.com/AIDC-AI/Marco-o1 Hugging Face： https://huggingface.co/AIDC-AI/Marco-o1 我们的特色有： 1. 使用了超长CoT数据进行微调。我们通过self-play+MCTS构建了一批具备反思、改正能力的超长CoT数据。结合其他开源数据一同训练了Marco-o1-CoT。 2. 使用MCTS扩展解空间。在推理阶段，通过使用MCTS+reward引导我们的模型(Marco-o1-MCTS)扩大解空间，输出更优秀的结果。 3. 细粒度解空间扩展。考虑到step级别依然具备较大的搜索细粒度，我们进一步的定义了mini-Step来进一步的扩大整个模型的解空间 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博