next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

大模型智能 · 公众号 · · 2024-06-07 00:00

文章预览

大模型智能｜分享来源 | 新智元编辑 | LRS 当前，大型语言模型，例如GPT和Llama，主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。但你有没有想过一个问题，为什么不对后文的tokens同时进行预测呢？最近，Meta、巴黎高科路桥大学、巴黎萨克雷大学的研究人员就联合提出了一种新的训练方法，即一次性预测多个未来tokens，可以提高模型的样本效率。论文链接：https://arxiv.org/pdf/2404.19737 具体来说，在训练语料库的每一个位置，要求模型使用n个独立的输出头网络来预测紧随其后的n个token，其中所有输出头都基于同一个模型主干。研究人员将多token预测视作是一种辅助训练任务，实验发现该方法不仅能够提升模型在各种下游任务上的表现，而且不会增加训练时间，对代码生成和自然语言生成任务都是有益的。随着模型尺寸的增 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

笔吧评测室 · 惠普推出暗影精灵 Omen 16 Slim 游戏本，至高 Ultra 9 285H + RTX 5070

7 小时前

笔吧评测室 · 聊一款「实测数据很强」的笔记本

7 小时前

笔吧评测室 · AMD 举办 AI PC 创新峰会：苏姿丰出席，锐龙 AI Max 系列亮相，生态应用持续壮大

昨天

笔吧评测室 · 惠普推出 14 英寸移动工作站战 99 Ultra：AMD 锐龙 AI MAX 300 处理器，15999~25999 元

2 天前

笔吧评测室 · 聊一款升级「128GB内存」的电脑

2 天前

梅斯皮肤新前沿 · J Cosmet Dermatol：肽OS-01用于皮肤年轻化的双盲对照临床研究

9 月前

蓝鲸新闻 · IPO长跑16年未果，广州银行主动撤回上市申请

2 月前