关注图网络、图表示学习,最近顶会顶刊动态以及机器学习基本方法,包括无监督学习、半监督学习、弱监督学习、元学习等
今天看啥  ›  专栏  ›  深度图学习与大模型LLM

ICML 2024 || 多token预测的训练显著提高大模型性能和推理速度

深度图学习与大模型LLM  · 公众号  ·  · 2024-06-23 16:38
    

文章预览

大家好,今天为大家介绍一篇有意思的研究论文。这篇论文提出了一种名为 多token预测的训练方法,能显著提高大模型的性能和推理速度 。这项工作为改进当前语言模型训练范式提供了一种简单有效的方法,值得我们关注。 1. 基本信息 论文题目: Better & Faster Large Language Models via Multi-token Prediction 作者: Fabian Gloeckle*, Badr Youbi Idrissi*, Baptiste Rozière, David Lopez-Paz+, Gabriel Synnaeve+ (* 共同第一作者, + 共同通讯作者) 作者单位: FAIR at Meta CERMICS Ecole des Ponts ParisTech LISN Université Paris-Saclay 2. 研究背景 近年来,大模型(LLM)取得了显著成就,但仍存在一些局限性。传统的next-token prediction训练方法虽然简单有效,但在获取语言、世界知识和推理能力方面效率不高。具体来说,teacher forcing与next-token prediction的结合导致模型过于关注局部模式,忽视了"困难"的决策。这使得当前最先进 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览