今天看啥  ›  专栏  ›  Hugging Face

社区供稿|阿里国际AI团队最新开源!探索面向开放性问题的推理模型 Marco-o1

Hugging Face  · 公众号  ·  · 2024-11-23 00:29
    

文章预览

我们发布了最新的Marco-o1模型,Marco-o1不仅关注具有标准答案的学科(例如代码、数学等)领域,而且更加强调开放式问题的解决方案。我们的目标是解决:“o1这类模型能否有效的推广到难以量化且缺乏明确奖励的其他领域上”这一问题。    Arxiv: https://arxiv.org/abs/2411.14405 Github:https://github.com/AIDC-AI/Marco-o1 Hugging Face: https://huggingface.co/AIDC-AI/Marco-o1 我们的特色有: 1. 使用了超长CoT数据进行微调。 我们 通过self-play+MCTS构建了一批具备反思、改正能力的超长CoT数据。结合其他开源数据一同训练了Marco-o1-CoT。 2. 使用MCTS扩展解空间。 在推理阶段,通过使用MCTS+reward引导我们的模型(Marco-o1-MCTS)扩大解空间,输出更优秀的结果。 3. 细粒度解 空间扩展。 考虑到step级别依然具备较大的搜索细粒度,我们进一步的定义了mini-Step来进一步的扩大整个模型的解空间 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览