一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

揭秘MagicDec:如何推测解码让长文本处理不再纠结于延迟与吞吐?

深度学习自然语言处理  · 公众号  ·  · 2024-09-09 20:09

文章预览

论文 :MagicDec-part2: Breaking the Latency-Throughput Tradeoff for Long Contexts with Speculative Decoding 链接 :https://infini-ai-lab.github.io/MagicDec-part2 研究背景 研究问题 本文旨在解决大型语言模型(LLMs)在长上下文应用中,如何在 低延迟 和 高吞吐量 之间取得平衡的问题。具体来说,传统的投机解码(Speculative Decoding, SD)技术在 小批量 下效果显著,但在 大批量 下表现有限。 研究难点 该问题的研究难点包括: 如何在 中等到长序列 长度下,通过投机解码技术提升吞吐量。 保持解码过程中 低延迟 和 高准确性 的平衡。 相关工作 相关领域已有多项研究,主要包括: Flash-decoding 、 Flash-decoding++ 、 FasterTransformers  等通过系统优化技术来降低解码延迟。 vLLM  和  ORCA  等方法通过增加请求数量来提高吞吐量。 量化 和 剪枝 技术通过模型压缩同时提升吞吐量和降低延迟。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览