专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

量子位  · 公众号  · AI  · 2024-11-05 12:39
    

主要观点总结

文章介绍了两个开源的AI项目:LLaMA-O1和O1-Journey。LLaMA-O1是上海AI Lab团队发布的基于蒙特卡洛树搜索和AlphaGo Zero架构的推理大模型,旨在提高大模型的数学能力。O1-Journey则是由上交大团队开发的另一个o1复刻项目,采用了创新的Journey Learning范式。文章还提到了量子位2024人工智能年度评选已经开启报名通道,评选结果将在MEET2025智能未来大会上公布。

关键观点总结

关键观点1: LLaMA-O1项目进展

上海AI Lab团队发布了LLaMA版o1大模型,使用蒙特卡洛树搜索、Self-Play强化学习、PPO算法和AlphaGo Zero的双重策略范式。在AIME2024基准测试中,优化后的模型表现超过除o1-preview和o1-mini之外的其他商业闭源方案。

关键观点2: O1-Journey项目介绍

O1-Journey是另一个公开的o1复刻项目,由上交大团队开发。团队发布了第一份进展报告,介绍了创新Journey Learning范式和将搜索和学习整合到数学推理中的模型。核心开发团队主要由上交大的学生和博士生组成。

关键观点3: 量子位2024人工智能年度评选

量子位启动了2024人工智能年度评选,从企业、人物、产品三大维度设立5类奖项。评选结果将在MEET2025智能未来大会上公布,邀请数百万从业者共同见证荣誉时刻。


文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 复刻OpenAI o1 推理大模型 ,开源界传来最新进展: LLaMA版o1 项目刚刚发布,来自 上海AI Lab 团队。 简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。 在2024年6月, o1发布之前, 团队 就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。 这次最新开源代码,也在开发者社区引起热议。 OpenAI o1系列发布后,团队开始升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。 10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力。 在最难的AIME2024基准测试30道题中,原版LLaMA-3.1-8B-Instruct做对2道,优化后做对8道,超过了除o1-preview和o1-mini之外的其他商业闭源方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览