今天看啥  ›  专栏  ›  NLP工作站

长文 | 探索基于RL的新LLM scaling范式

NLP工作站  · 公众号  ·  · 2024-09-16 12:12

文章预览

借着 o1 发布的机会读读 基于 RL 的新 LLM scaling 范式的 相关论文。 背景简介 首先推荐阅读一下拾象的《 LLM 的范式转移:RL 带来新的 Scaling Law 》,很好地科普了一下基于 RL 的新 LLM scaling 范式。 之前我们常说的 scaling law 一般指的是 pre-train 阶段通过算力、数据、模型参数量的提升来不断提升模型智能水平。不过最近一年来看,碰到了不少瓶颈: 算力上我们受限于超大规模训练集群的各种工程挑战,例如 LLaMA 3 的 paper 里就提到他们的万卡集群每两小时就会有坏卡问题出现,所以进一步拓展到 10 万卡规模的集群目前看起来难度很大。 数据方面,文本数据达到 10-20T token 量级后,需要进一步在数量级上提升目前也比较困难了。尤其是能带来“增量收益”的复杂推理方面的数据更加稀缺。 所以大家普遍有感觉,自从 GPT-4 发布后,基本没有出现让人惊艳 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览