专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

01年实习生被曝负责字节RL核心算法!系字节LLM攻坚小组成员

量子位  · 公众号  · AI  · 2025-03-20 18:56
    

主要观点总结

文章介绍了字节推出的超越DeepSeek GRPO的RL算法DAPO,该算法由字节和清华AIR联合实验室SIA Lab共同研发,已经开源。DAPO的出现是由于一名天才实习生禹棋赢在字节通过采用Outcome-based RL策略取得了惊人的模型训练效果,他本人是该算法的主要贡献者之一。文章还介绍了禹棋赢的成长经历和在字节的实习经历,以及他如何在大模型行业取得突破。最后,文章讨论了当下大模型团队对解决前沿问题能力的追求,以及年轻人在这方面的优势。

关键观点总结

关键观点1: DAPO算法的出现和效果

DAPO算法是字节和清华AIR联合实验室推出的超越DeepSeek GRPO的RL算法,已经开源。该算法在AIME 2024基准上拿下50分,优于相同setting下使用GRPO算法的DeepSeek-R1。DAPO使用的训练步数还减少了50%。

关键观点2: 禹棋赢的成长和在字节的实习经历

禹棋赢是哈尔滨工业大学的本科生,后以博导身份进行研究。在字节实习期间,他采用Outcome-based RL策略取得惊人效果,是大模型行业中的代表性人物。

关键观点3: 顶尖大模型团队对解决前沿问题能力的追求

当下顶尖大模型团队对解决前沿问题能力有极致追求,年轻人只要具备这种能力就能得到重用。经验不再是唯一筹码,好奇心与执行力才是通行证。


文章预览

衡宇 发自 凹非寺 量子位 | 公众号 QbitAI 一个超越DeepSeek GRPO的关键RL算法 出现了! 用上该算法后,Qwen2.5-32B模型只经过RL训练,不引入蒸馏等其他技术,在AIME 2024基准上拿下50分,优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen,且DAPO使用的训练步数还减少了50%。 这个算法名为DAPO,字节、清华AIR联合实验室SIA Lab出品,现 已开源 。 论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人 。 Qiying Yu,何许人也? 量子位搜罗网络公开资料,整理出以下信息: 禹棋赢 ,01年生,本科毕业于哈工大,直博进入清华AIR,目前博士三年级在读。去年年中,他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。 我们还从知情人士处得知了禹棋赢的另一重身份—— 在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中,禹棋 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览