专栏名称: 大模型智能
机器学习算法、深度学习算法、自然语言处理等干货知识集中营
今天看啥  ›  专栏  ›  大模型智能

next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+

大模型智能  · 公众号  ·  · 2024-06-07 00:00
    

文章预览

大模型智能|分享 来源 | 新智元 编辑 | LRS 当前,大型语言模型,例如GPT和Llama,主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。 但你有没有想过一个问题,为什么不对后文的tokens同时进行预测呢? 最近,Meta、巴黎高科路桥大学、巴黎萨克雷大学的研究人员就联合提出了一种新的训练方法,即一次性预测多个未来tokens,可以提高模型的样本效率。 论文链接:https://arxiv.org/pdf/2404.19737 具体来说,在训练语料库的每一个位置,要求模型使用n个独立的输出头网络来预测紧随其后的n个token,其中所有输出头都基于同一个模型主干。 研究人员将多token预测视作是一种辅助训练任务,实验发现该方法不仅能够提升模型在各种下游任务上的表现,而且不会增加训练时间,对代码生成和自然语言生成任务都是有益的。 随着模型尺寸的增 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览