注册登录

专栏名称: 企业存储技术

企业存储、服务器、SSD、灾备等领域技术分享，交流 | @唐僧_huangliang （新浪微博）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

目录

相关文章推荐

北京应急 · 1天多起！又有人因祭祀烧纸引发火灾被查处！ · 16 小时前

北京应急 · 1天多起！又有人因祭祀烧纸引发火灾被查处！ · 16 小时前

京城事儿 · 集体涨价！比黄金还猛！大批人提前囤货：真买不 ... · 3 天前

今天看啥 › 专栏 › 企业存储技术

推测解码：加速vLLM文本生成Token/s 2.31倍

企业存储技术 · 公众号 · · 2025-03-27 18:30

文章预览

本文参考自 2 篇博客文章《 Speculative Decoding - Deep Dive 》、《 Speed Up Text Generation with Speculative Sampling on AMD GPUs 》，来源链接见文末。随着 Transformer 模型规模的扩大，推理成本也会随之增加，从而影响延迟和吞吐量。压缩方法（例如量化和蒸馏）以及硬件感知优化（例如 Flash Attention 和 Triton ）已被提出来在不同层面上降低计算成本。然而，这些模型要么牺牲了准确性，要么需要对模型实现进行重大更改。推测采样是一种加速推理（在 70B Chinchilla 模型上可提高 2-2.5 倍）的技术，同时不会改变数学准确性，也不会改变模型配置或训练。此外，它可以与上述优化策略结合使用，以进一步减少文本生成的延迟。在这篇博文中，我们将简要介绍推测采样、其基于草稿（ draft ）和目标模型的算法方法，以及它在使用 ROCm 的 AMD GPU 上的实现。 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

北京应急 · 1天多起！又有人因祭祀烧纸引发火灾被查处！

16 小时前

北京应急 · 1天多起！又有人因祭祀烧纸引发火灾被查处！

16 小时前

京城事儿 · 集体涨价！比黄金还猛！大批人提前囤货：真买不起了......

3 天前

北京吃货小分队 · 小红书超推荐！人生必吃的曲奇！

6 月前

医业观察 · 民营医院检查费上千元，这块市场好做吗？

5 月前

中国光谷 · 光谷赴上海交大招聘，19家单位携2700余岗位揽才

5 月前

光伏盒子 · 铜领未来！东方日升实现0.5mg/w纯银耗量，革新异质结金属化成本

4 月前

湖南日报 · 重大突破！全球最快列车来了

3 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 51好读 · 小百科（海外） · Link管理

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号