专栏名称: 阿里研究院

阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧，以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。阿里研究，洞察数据，共创新知！官方网站http://www.aliresearch.com/

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLM的范式转移：RL带来新的 Scaling Law

阿里研究院 · 公众号 · 电商 · 2024-09-02 15:36

文章预览

从几周前 Sam Altman 在 X 上发布草莓照片开始，整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道，Strawberry 就是之前的 Q-star，其合成数据的方法会大幅提升 LLM 的智能推理能力，尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上，帮助 OpenAI 新一代 Orion。 OpenAI 不是唯一重视 RL 和 Self-Play 的公司，Google 用 AlphaGeometry 2 + Alphaproof 夺得 IMO 银牌之后，基于 LLM 做 reward model 的思路发了多篇 paper。 Anthropic Claude 3.5 的代码能力显著提升，我们猜测也是以这样的思路去引领变化。今年以来我们观察到 LLM scaling up 的边际收益开始递减，用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。在新范式下，LLM 领域的 scaling law 会发生变化：计算量变大仍会带来模型智能的提升，但会从模型参数量变大，转 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

猎云精选 · 阿里大调整！蒋凡执掌电商事业群

15 小时前

十倍游资 · 重磅更新！周四舆情热度题材（附股图）

16 小时前

十倍游资 · 重磅更新！周四舆情热度题材（附股图）

16 小时前

猿大侠 · 淘宝新功能太炸裂了，网友：谁愿意挣这窝囊费？

22 小时前

猿大侠 · 淘宝新功能太炸裂了，网友：谁愿意挣这窝囊费？

22 小时前

亿恩 · 亿恩课堂-FB广告素材准备为大促打下基础

4 天前

学习强国 · 今晚19:30，让你暖心过冬天的好物大放送！

6 天前

石墨烯联盟 · 石墨烯-钙钛矿纤维光电探测器

4 月前

中国出口信用保险公司 · 中国信保祝您中秋快乐

2 月前

量化智投 · 降息幅度突现分歧，成长是否延续演绎？

2 月前