专栏名称: OpenCV学堂

一个致力于计算机视觉OpenCV原创技术传播的公众号！OpenCV计算机视觉与tensorflow深度学习相关算法原创文章分享、函数使用技巧、源码分析与讨论、，计算机视觉前沿技术介绍，技术专家经验分享，人才交流，学习交流。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

拆分Transformer注意力，韩国团队让大模型解码提速20倍

OpenCV学堂 · 公众号 · · 2024-07-01 21:43

主要观点总结

来自韩国科学技术研究院、LG和DeepMind的研究人员提出了一种新的Transformer架构，名为Block Transformer，旨在解决原始Transformer推理速度慢、内存开销大的问题。通过对注意力机制进行切块调整，Block Transformer将原始Transformer的全局注意力分解为块级注意力和块内注意力，分别由Block Decoder和Token Decoder处理。这种方法在不影响模型质量的前提下，显著提高了推理速度，降低了内存开销。论文地址：https://arxiv.org/abs/2406.02657。

关键观点总结

关键观点1: 研究背景

原始Transformer每生成一个Token就要访问一次全局KV缓存，导致推理速度慢、内存开销大。

关键观点2: 新方法介绍

Block Transformer通过对注意力机制进行切块调整，将原始Transformer的全局注意力分解为块级注意力和块内注意力，分别由Block Decoder和Token Decoder处理，提高了推理速度。

关键观点3: 核心思路

Block Transformer的核心思路是将原始Transformer的全局注意力分解，通过切块的方式降低计算复杂度和内存占用，提高推理吞吐量。

关键观点4: 性能提升

Block Transformer的推理吞吐量最高提升20倍，同时保持较高的准确率。此外，它还降低了模型的训练成本和内存开销。

文章预览

点击上方 ↑↑↑ “ OpenCV学堂 ”关注我来源：公众号量子位授权只要将注意力切块，就能让大模型解码提速20倍。来自韩国科学技术研究院、LG和DeepMind的研究人员，提出了一种新的Transformer架构。不仅获得了更快的推理速度，内存开销也大幅度下降。研究人员详细分析了原始Transformer推理速度慢的原因—— 原始Transformer每生成一个Token就要访问一次全局KV缓存，消耗了大量资源。实际上，这种方法的GPU 有效利用率不到1% ，其余的99%都用在了内存访问上。针对这一问题，团队对Transformer的注意力机制进行了切块调整，提出了名为 Block Transformer 的新架构。结果在没有明显质量损失的情况下，推理吞吐量提升了10-20倍。有网友表示，自己之前也有过类似的思路，但结果模型的性能不足，现在这个方法看上去确实有效削减了KV缓存。 “切开”Tra ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博