文章预览
作者:姜富春 链接:https://zhuanlan.zhihu.com/p/18056041194 0.引言 最近整理deepseek的技术线,针对MTP(Multi-Token Prediction)方法做了些扩展的阅读和学习。主要参考3篇论文了解了MTP的前世今生。本文章结合业界的一些探索,并试图增加自己的一些理解来讲讲MTP方法。下面我们进入正题。 1.为什么要做MTP 在学习具体的方法前,我们首先了解下为什么要做MTP(Multi-Token Prediction)? 背景 我们都知道,当前主流的大模型(LLMs)都是decoder-base的模型结构,也就是无论在模型训练还是在推理阶段,对于一个序列的生成过程,都是token-by-token的。每次在生成一个token的时候,都要频繁跟访存交互,加载KV-Cache,再通过多层网络做完整的前向计算。对于这样的访存密集型的任务,通常会因为访存效率形成训练或推理的瓶颈。 针对token-by-token生成效率的瓶颈,业界很多方法来优化,包
………………………………