专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

拆分Transformer注意力,韩国团队让大模型解码提速20倍

量子位  · 公众号  · AI  · 2024-07-01 12:13
    

文章预览

克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 只要将注意力切块,就能让大模型解码提速20倍。 来自韩国科学技术研究院、LG和DeepMind的研究人员,提出了一种新的Transformer架构。 不仅获得了更快的推理速度,内存开销也大幅度下降。 研究人员详细分析了原始Transformer推理速度慢的原因—— 原始Transformer每生成一个Token就要访问一次全局KV缓存 ,消耗了大量资源。 实际上,这种方法的GPU 有效利用率不到1% ,其余的99%都用在了内存访问上。 针对这一问题,团队对Transformer的注意力机制进行了切块调整,提出了名为 Block Transformer 的新架构。 结果在没有明显质量损失的情况下,推理 吞吐量提升了10-20倍 。 有网友表示,自己之前也有过类似的思路,但结果模型的性能不足,现在这个方法看上去确实有效削减了KV缓存。 “切开”Transformer的注意力 原始Transformer ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览