专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

Llama版o1来了,来自上海AI Lab,强化学习代码已开源,基于AlphaGo Zero范式

量子位  · 公众号  · AI  · 2024-11-05 12:39

文章预览

梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 复刻OpenAI o1 推理大模型 ,开源界传来最新进展: LLaMA版o1 项目刚刚发布,来自 上海AI Lab 团队。 简介中明确:使用了蒙特卡洛树搜索,Self-Play强化学习,PPO,以及AlphaGo Zero的双重策略范式(先验策略+价值评估)。 在2024年6月, o1发布之前, 团队 就开始探索蒙特卡洛树搜索提高大模型数学能力,积累了一些关注。 这次最新开源代码,也在开发者社区引起热议。 OpenAI o1系列发布后,团队开始升级算法,专注于数学奥赛问题,作为OpenAI草莓项目的开源版本。 10月初,团队上传新论文,使用成对优化(不直接给出绝对分数,而是比较两个答案的相对优劣)提高Llama模型数学奥赛能力。 在最难的AIME2024基准测试30道题中,原版LLaMA-3.1-8B-Instruct做对2道,优化后做对8道,超过了除o1-preview和o1-mini之外的其他商业闭源方 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览