文章预览
论文 :MagicDec-part2: Breaking the Latency-Throughput Tradeoff for Long Contexts with Speculative Decoding 链接 :https://infini-ai-lab.github.io/MagicDec-part2 研究背景 研究问题 本文旨在解决大型语言模型(LLMs)在长上下文应用中,如何在 低延迟 和 高吞吐量 之间取得平衡的问题。具体来说,传统的投机解码(Speculative Decoding, SD)技术在 小批量 下效果显著,但在 大批量 下表现有限。 研究难点 该问题的研究难点包括: 如何在 中等到长序列 长度下,通过投机解码技术提升吞吐量。 保持解码过程中 低延迟 和 高准确性 的平衡。 相关工作 相关领域已有多项研究,主要包括: Flash-decoding 、 Flash-decoding++ 、 FasterTransformers 等通过系统优化技术来降低解码延迟。 vLLM 和 ORCA 等方法通过增加请求数量来提高吞吐量。 量化 和 剪枝 技术通过模型压缩同时提升吞吐量和降低延迟。
………………………………