DeepSeekV3如何一次性预测多个token

包包算法笔记 · 公众号 · · 2025-01-15 18:00

文章预览

作者:姜富春链接:https://zhuanlan.zhihu.com/p/18056041194 0.引言最近整理deepseek的技术线，针对MTP（Multi-Token Prediction）方法做了些扩展的阅读和学习。主要参考3篇论文了解了MTP的前世今生。本文章结合业界的一些探索，并试图增加自己的一些理解来讲讲MTP方法。下面我们进入正题。 1.为什么要做MTP 在学习具体的方法前，我们首先了解下为什么要做MTP(Multi-Token Prediction)? 背景我们都知道，当前主流的大模型(LLMs)都是decoder-base的模型结构，也就是无论在模型训练还是在推理阶段，对于一个序列的生成过程，都是token-by-token的。每次在生成一个token的时候，都要频繁跟访存交互，加载KV-Cache，再通过多层网络做完整的前向计算。对于这样的访存密集型的任务，通常会因为访存效率形成训练或推理的瓶颈。针对token-by-token生成效率的瓶颈，业界很多方法来优化，包 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博