专栏名称: 计算机视觉研究院

主要由来自于大学的研究生组成的团队，本平台从事机器学习与深度学习领域，主要在人脸检测与识别，多目标检测研究方向。本团队想通过计算机视觉战队平台打造属于自己的品牌，让更多相关领域的人了解本团队，结识更多相关领域的朋友，一起来学习，共同进步！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

单卡A100实现百万token推理，速度快10倍，这是微软官方的大模型推理加速

计算机视觉研究院 · 公众号 · · 2024-07-10 11:04

文章预览

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID ｜计算机视觉研究院学习群｜扫码在主页获取加入方式计算机视觉研究院专栏 Column of Computer Vision Institute 微软的这项研究让开发者可以在单卡机器上以 10 倍的速度处理超过 1M 的输入文本。大型语言模型 (LLM) 已进入长上下文处理时代，其支持的上下文窗口从先前的 128K 猛增到 10M token 级别。然而，由于注意力机制的二次复杂度，模型处理输入提示（即预填充阶段）并开始产生第一个 token 可能需要几分钟时间。导致首个 token 生成的时间过长，从而严重影响了用户体验，这也极大地限制了长上下文 LLM 的广泛应用。举例来说（如图 2a 所示），在单台装有 A100 的机器上为 LLaMA-3-8B 提供服务时，如果提示有 30 万个 token，模型需要 6 分钟才能完成预填充（ pre-filling）阶段，如果 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

知乎日报 · 星舰第六次试飞，到底是成功还是失败？

3 天前

物道 · 一日道｜不为一朝风月，而不解万古长空

4 天前

LADYMAX · 16条要闻 | Prada CEO批评奢侈品涨价策略；杉杉二代让位；YSL和巴黎世家换CEO；Geox关闭中国和美国子公司

4 天前

商务范 · 中产标配的“北京市服”，冲锋衣凭什么成了上班族“最好医美”？

5 天前

物道 · 一日道｜味道是每个人心中固守的乡愁

1 周前

环保人 · 环评按环境部公告将水喷淋处理VOCs的效率取70%，复核专家问是否可以？有明确依据不？

3 月前

雷峰网 · 独家丨Temu半托管重大组织调整，年内用户量或超亚马逊

3 周前