单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

机器之心 · 公众号 · AI · 2024-07-08 12:54

文章预览

机器之心报道编辑：张倩、陈萍微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代，其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。然而，由于注意力机制的二次复杂度，模型处理输入提示（即预填充阶段）并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长，从而严重影响了用户体验，这也极大地限制了长上下文 LLM 的广泛应用。举例来说（如图 2a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时，如果提示有 30 万个 token，模型需要 6 分钟才能完成预填充（ pre-filling）阶段，如果提示增加到 100 万个 token，这个数字将增加到 30 分钟。自注意力计算的开销占到了总预填充延迟的 90% 以上，这使其成为 LLM 处理长上下文时的主要 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 《爱可可微博热门分享(12.20)》爱可可微博热门分享(12-20241220221514

11 小时前

宝玉xp · 我日常用 Cursor 写代码的场景之一：“请参考代码 @ XX-20241219013619

2 天前

爱可可-爱生活 · 【Kiln AI：用于微调大型语言模型（LLM）、生成合成数据和-20241218142240

2 天前

爱可可-爱生活 · 【HOPEJr：开源DIY人形机器人，拥有灵巧的双手，旨在降低成-20241218141936

2 天前

宝玉xp · 没听说正式消息//@金火流明:那只是一个对话。。当个玩笑开开就得-20241217033539

4 天前

Keyshotvv · 一句话攻略：不站上66000，一直看空#比特币超话# -20240725235119

4 月前

Sportz Performance Frontiers · 当VR遇上竞技场：如何通过科技提升团队运动中的决策能力

1 月前