Llama版o1来了，来自上海AI Lab，强化学习代码已开源，基于AlphaGo Zero范式

量子位 · 公众号 · AI · 2024-11-05 12:39

主要观点总结

文章介绍了两个开源的AI项目：LLaMA-O1和O1-Journey。LLaMA-O1是上海AI Lab团队发布的基于蒙特卡洛树搜索和AlphaGo Zero架构的推理大模型，旨在提高大模型的数学能力。O1-Journey则是由上交大团队开发的另一个o1复刻项目，采用了创新的Journey Learning范式。文章还提到了量子位2024人工智能年度评选已经开启报名通道，评选结果将在MEET2025智能未来大会上公布。

关键观点总结

关键观点1: LLaMA-O1项目进展

上海AI Lab团队发布了LLaMA版o1大模型，使用蒙特卡洛树搜索、Self-Play强化学习、PPO算法和AlphaGo Zero的双重策略范式。在AIME2024基准测试中，优化后的模型表现超过除o1-preview和o1-mini之外的其他商业闭源方案。

关键观点2: O1-Journey项目介绍

O1-Journey是另一个公开的o1复刻项目，由上交大团队开发。团队发布了第一份进展报告，介绍了创新Journey Learning范式和将搜索和学习整合到数学推理中的模型。核心开发团队主要由上交大的学生和博士生组成。

关键观点3: 量子位2024人工智能年度评选

量子位启动了2024人工智能年度评选，从企业、人物、产品三大维度设立5类奖项。评选结果将在MEET2025智能未来大会上公布，邀请数百万从业者共同见证荣誉时刻。

文章预览

梦晨发自凹非寺量子位 | 公众号 QbitAI 复刻OpenAI o1 推理大模型，开源界传来最新进展： LLaMA版o1 项目刚刚发布，来自上海AI Lab 团队。简介中明确：使用了蒙特卡洛树搜索，Self-Play强化学习，PPO，以及AlphaGo Zero的双重策略范式（先验策略+价值评估）。在2024年6月， o1发布之前，团队就开始探索蒙特卡洛树搜索提高大模型数学能力，积累了一些关注。这次最新开源代码，也在开发者社区引起热议。 OpenAI o1系列发布后，团队开始升级算法，专注于数学奥赛问题，作为OpenAI草莓项目的开源版本。 10月初，团队上传新论文，使用成对优化（不直接给出绝对分数，而是比较两个答案的相对优劣）提高Llama模型数学奥赛能力。在最难的AIME2024基准测试30道题中，原版LLaMA-3.1-8B-Instruct做对2道，优化后做对8道，超过了除o1-preview和o1-mini之外的其他商业闭源方 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博