专栏名称: PaperWeekly

PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区：http://paperweek.ly | 微博：@PaperWeekly

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

单卡A100实现百万token推理！微软提出全新加速预填充稀疏计算方法

PaperWeekly · 公众号 · 科研 · 2024-07-15 13:53

文章预览

©作者 | 张倩、陈萍来源 | 机器之心大型语言模型 (LLM) 已进入长上下文处理时代，其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。然而，由于注意力机制的二次复杂度，模型处理输入提示（即预填充阶段）并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长，从而严重影响了用户体验，这也极大地限制了长上下文 LLM 的广泛应用。举例来说（如图 2a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时，如果提示有 30 万个 token，模型需要 6 分钟才能完成预填充（ pre-filling）阶段，如果提示增加到 100 万个 token，这个数字将增加到 30 分钟。自注意力计算的开销占到了总预填充延迟的 90% 以上，这使其成为 LLM 处理长上下文时的主要瓶颈。现有的加速预填充方法在应用于长上下文 LLM 时通常无法保持可接受的准 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

募格学术 · 迁址办学！独立学院，转设更名

2 天前

募格学术 · 2025国家社会科学基金项目申报研讨会议即将开幕

4 天前

实验万事屋 · 我只想做个救死扶伤的医生，但看了这中山大学副主任医师发的14.5分的棕榈酰化的Cell大子刊，下班后我乖乖去了实验室......

4 天前

科研大匠 · 复旦大学最新Cell：全面绘制人类健康与疾病蛋白质组图谱

5 天前

社会学理论大缸 · 申请季最后冲刺，如何写出让导师心动的研究计划书？

6 天前

宁夏高级人民法院 · 媒“眼”看“法”丨盐池法院打造全链条诉源治理新模式

5 月前

晶澳科技 JA Solar · Intersolar 精彩回顾丨晶澳科技光储同耀慕尼黑

5 月前