专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

学长小谭考研 · 调剂小程序激活教程 · 昨天

艾锋降级 · 真快！iOS 微信 8.0.56 ... · 2 天前

贵州省通信管理局 · 贵州省5G建设应用结硕果赋能新型工业化显成效 · 2 天前

短剧内行人 · 听花岛公开短剧方法论 · 3 天前

贵州市场监管 · “运输20多天不坏，到家2天就软！”是不是打药了？ · 3 天前

今天看啥 › 专栏 › 深度学习自然语言处理

揭秘MagicDec：如何推测解码让长文本处理不再纠结于延迟与吞吐？

深度学习自然语言处理 · 公众号 · · 2024-09-09 20:09

文章预览

论文：MagicDec-part2: Breaking the Latency-Throughput Tradeoff for Long Contexts with Speculative Decoding 链接：https://infini-ai-lab.github.io/MagicDec-part2 研究背景研究问题本文旨在解决大型语言模型（LLMs）在长上下文应用中，如何在低延迟和高吞吐量之间取得平衡的问题。具体来说，传统的投机解码（Speculative Decoding, SD）技术在小批量下效果显著，但在大批量下表现有限。研究难点该问题的研究难点包括：如何在中等到长序列长度下，通过投机解码技术提升吞吐量。保持解码过程中低延迟和高准确性的平衡。相关工作相关领域已有多项研究，主要包括： Flash-decoding 、 Flash-decoding++ 、 FasterTransformers 等通过系统优化技术来降低解码延迟。 vLLM 和 ORCA 等方法通过增加请求数量来提高吞吐量。量化和剪枝技术通过模型压缩同时提升吞吐量和降低延迟。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

学长小谭考研 · 调剂小程序激活教程

昨天

学长小谭考研 · 调剂小程序激活教程

昨天

艾锋降级 · 真快！iOS 微信 8.0.56 更新，真有 Callkit 功能

2 天前

艾锋降级 · 真快！iOS 微信 8.0.56 更新，真有 Callkit 功能

2 天前

贵州省通信管理局 · 贵州省5G建设应用结硕果赋能新型工业化显成效

2 天前

贵州省通信管理局 · 贵州省5G建设应用结硕果赋能新型工业化显成效

2 天前

短剧内行人 · 听花岛公开短剧方法论

3 天前

贵州市场监管 · “运输20多天不坏，到家2天就软！”是不是打药了？

3 天前

经济日报 · 破13亿！

3 月前

中国机电产品进出口商会 · 中国两轮车数据看板（2024年1-8月）

3 月前

混沌天成研究 · 【有色早评】淡季临近，碳酸锂反弹空间有限

3 月前