文章预览
这是《vLLM 深入浅出》系列的第一篇,用动画带你直观了解大语言模型推理的秘密,并解锁其中的三个核心挑战。 大语言模型的推理过程 假设输入的 prompt 是 "The future of AI is",那么需要经历四个模块:Tokenizer、Model、Sampler、DeTokenizer。 动画流程图如下: Tokenizer: 把人类的文本语言变成模型自己的语言: Token ,就是一串数字,是文本切分为多个单词后,每个单词对应的编号。Tokenizer 里有模型的词表,代表了模型认识哪些文本。 Model: 模型就像个预言家,根据你输入的内容,预测下一个词会是什么,这个预测结果叫做 logits 。它代表了模型预测的当前下一个词在词表里的概率,模型的第一次前向推理称之为 prefill(装填)阶段,而后续的前向推理称之为decode(解码)阶段。 Sampler: Sampler 就像从词表中抓阄,参考 logits 里指示的概率来选定下一个词
………………………………