连接人工智能技术人才和产业人才的交流平台
今天看啥  ›  专栏  ›  机器学习研究组订阅

next-token被淘汰!Meta实测「多token」训练方法,推理提速3倍,性能大涨10%+

机器学习研究组订阅  · 公众号  · AI  · 2024-06-03 21:20
    

文章预览

当前,大型语言模型,例如GPT和Llama,主要是根据「前文的单词序列」对「下一个token」进行预测的方式来训练。 但你有没有想过一个问题,为什么不对后文的tokens同时进行预测呢? 最近,Meta、巴黎高科路桥大学、巴黎萨克雷大学的研究人员就联合提出了一种新的训练方法,即一次性预测多个未来tokens,可以提高模型的样本效率。 论文链接: https://arxiv.org/pdf/2404.19737 具体来说,在训练语料库的每一个位置,要求模型使用n个独立的输出头网络来预测紧随其后的n个token,其中所有输出头都基于同一个模型主干。 研究人员将多token预测视作是一种辅助训练任务,实验发现该方法不仅能够提升模型在各种下游任务上的表现,而且不会增加训练时间,对代码生成和自然语言生成任务都是有益的。 随着模型尺寸的增大,该方法的优势变得更加明显,尤其是 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览