01年实习生被曝负责字节RL核心算法！系字节LLM攻坚小组成员

量子位 · 公众号 · AI · 2025-03-20 18:56

主要观点总结

文章介绍了字节推出的超越DeepSeek GRPO的RL算法DAPO，该算法由字节和清华AIR联合实验室SIA Lab共同研发，已经开源。DAPO的出现是由于一名天才实习生禹棋赢在字节通过采用Outcome-based RL策略取得了惊人的模型训练效果，他本人是该算法的主要贡献者之一。文章还介绍了禹棋赢的成长经历和在字节的实习经历，以及他如何在大模型行业取得突破。最后，文章讨论了当下大模型团队对解决前沿问题能力的追求，以及年轻人在这方面的优势。

关键观点总结

关键观点1: DAPO算法的出现和效果

DAPO算法是字节和清华AIR联合实验室推出的超越DeepSeek GRPO的RL算法，已经开源。该算法在AIME 2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1。DAPO使用的训练步数还减少了50%。

关键观点2: 禹棋赢的成长和在字节的实习经历

禹棋赢是哈尔滨工业大学的本科生，后以博导身份进行研究。在字节实习期间，他采用Outcome-based RL策略取得惊人效果，是大模型行业中的代表性人物。

关键观点3: 顶尖大模型团队对解决前沿问题能力的追求

当下顶尖大模型团队对解决前沿问题能力有极致追求，年轻人只要具备这种能力就能得到重用。经验不再是唯一筹码，好奇心与执行力才是通行证。

文章预览

衡宇发自凹非寺量子位 | 公众号 QbitAI 一个超越DeepSeek GRPO的关键RL算法出现了！用上该算法后，Qwen2.5-32B模型只经过RL训练，不引入蒸馏等其他技术，在AIME 2024基准上拿下50分，优于相同setting下使用GRPO算法的DeepSeek-R1-Zero-Qwen，且DAPO使用的训练步数还减少了50%。这个算法名为DAPO，字节、清华AIR联合实验室SIA Lab出品，现已开源。论文通讯作者和开源项目负责人都是一个叫Qiying Yu的人。 Qiying Yu，何许人也？量子位搜罗网络公开资料，整理出以下信息：禹棋赢，01年生，本科毕业于哈工大，直博进入清华AIR，目前博士三年级在读。去年年中，他以研究实习生的身份加入字节首次推出的「Top Seed人才计划」。我们还从知情人士处得知了禹棋赢的另一重身份—— 在字节大模型团队内部负责打造“能力显著提升的下一代语言模型”的攻坚小组中，禹棋 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博