专栏名称: 企业存储技术
企业存储、服务器、SSD、灾备等领域技术分享,交流 | @唐僧_huangliang (新浪微博 )
今天看啥  ›  专栏  ›  企业存储技术

推测解码:加速vLLM文本生成Token/s 2.31倍

企业存储技术  · 公众号  ·  · 2025-03-27 18:30
    

文章预览

本文参考自 2 篇博客文章《 Speculative Decoding - Deep Dive 》、《 Speed Up Text Generation with Speculative Sampling on AMD GPUs 》,来源链接见文末。 随着  Transformer  模型规模的扩大,推理成本也会随之增加,从而影响延迟和吞吐量。压缩方法(例如量化和蒸馏)以及硬件感知优化(例如  Flash Attention 和  Triton )已被提出来在不同层面上降低计算成本。然而,这些模型要么牺牲了准确性,要么需要对模型实现进行重大更改。 推测采样是一种加速推理(在  70B Chinchilla  模型上可提高  2-2.5  倍)的技术,同时不会改变数学准确性,也不会改变模型配置或训练。此外,它可以与上述优化策略结合使用,以进一步减少文本生成的延迟。在这篇博文中,我们将简要介绍推测采样、其基于草稿( draft )和目标模型的算法方法,以及它在使用  ROCm  的  AMD GPU  上的实现。 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览