专栏名称: 阿里研究院
阿里研究院依托阿里巴巴集团海量数据、深耕小企业前沿案例、集结全球商业智慧,以开放、合作、共建、共享的方式打造具影响力的新商业知识平台。 阿里研究,洞察数据,共创新知! 官方网站http://www.aliresearch.com/
今天看啥  ›  专栏  ›  阿里研究院

LLM的范式转移:RL带来新的 Scaling Law

阿里研究院  · 公众号  · 电商  · 2024-09-02 15:36

文章预览

从几周前 Sam Altman 在 X 上发布草莓照片开始,整个行业都在期待 OpenAI 发布新模型。根据 The information 的报道,Strawberry 就是之前的 Q-star,其合成数据的方法会大幅提升 LLM 的智能推理能力,尤其体现在数学解题、解字谜、代码生成等复杂推理任务。这个方法也会用在 GPT 系列的提升上,帮助 OpenAI 新一代 Orion。 OpenAI 不是唯一重视 RL 和 Self-Play 的公司,Google 用 AlphaGeometry 2 + Alphaproof 夺得 IMO 银牌之后,基于 LLM 做 reward model 的思路发了多篇 paper。 Anthropic Claude 3.5 的代码能力显著提升,我们猜测也是以这样的思路去引领变化。 今年以来我们观察到 LLM  scaling up 的边际收益开始递减,用 RL self-play + MCTS 提升 LLM 推理能力成为下一个技术范式。 在新范式下,LLM 领域的 scaling law 会发生变化:计算量变大仍会带来模型智能的提升,但会从模型参数量变大,转 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览