next-token被淘汰！Meta实测「多token」训练方法，推理提速3倍，性能大涨10%+

机器学习研究组订阅 · 公众号 · AI · 2024-06-03 21:20

文章预览

当前，大型语言模型，例如GPT和Llama，主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。但你有没有想过一个问题，为什么不对后文的tokens同时进行预测呢？最近，Meta、巴黎高科路桥大学、巴黎萨克雷大学的研究人员就联合提出了一种新的训练方法，即一次性预测多个未来tokens，可以提高模型的样本效率。论文链接： https://arxiv.org/pdf/2404.19737 具体来说，在训练语料库的每一个位置，要求模型使用n个独立的输出头网络来预测紧随其后的n个token，其中所有输出头都基于同一个模型主干。研究人员将多token预测视作是一种辅助训练任务，实验发现该方法不仅能够提升模型在各种下游任务上的表现，而且不会增加训练时间，对代码生成和自然语言生成任务都是有益的。随着模型尺寸的增大，该方法的优势变得更加明显，尤其是 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

硅星GenAI · 12月国内AI产品二十强出炉：豆包四项9分霸榜、DeepSeek逆袭进前四

16 小时前

硅星GenAI · 12月国内AI产品二十强出炉：豆包四项9分霸榜、DeepSeek逆袭进前四

16 小时前

宝玉xp · VITA-1.5：VITA-1.5 是一款类似于 GPT-4o -20250107021013

2 天前

爱可可-爱生活 · 【MingCute：精心设计的开源图标库，提供简洁而精致的图标，-20250106133504

2 天前

爱可可-爱生活 · 【ACU - Awesome Agents for Comput-20250106135257

2 天前

宝玉xp · 40岁应该还好，写到60岁都没问题评论配图以前拼体力拼不过年-20250105135646

3 天前

猿大侠 · 打破纪录！中国科学家让薛定谔的猫活了23分钟

1 月前

淘梦 · 10个即将于1月份截止征片的国际电影节！

昨天