文章预览
公众号关注 “GitHubDaily” 设为 “ 星标 ”,每天带你逛 GitHub! 这几天,GitHub 上一个国产 AI 开源项目杀疯了! 仅用 8 张显卡和一万块钱,清华团队就训练出数学推理超越 GPT-4o 的 7B 模型! 该项目一经开源瞬间爆火海外 AI 社区,众多大佬纷纷转发分享讨论。 甚至得到了 ChatGPT 之父 John Schulman 的点赞,短时间内 Star 数不断飙升! GitHub 链接: https://github.com/PRIME-RL/PRIME OpenAI o1 和 o3 模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力。 在基于模仿学习的 Scaling Law 逐渐受到质疑的今天,基于探索的强化学习有望带来新的 Scaling Law。 近日,清华大学 NLP 实验室联合上海 AI Lab,清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME ( Process Reinforcement through IMplicit REwards )。 采用 P
………………………………