专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
目录
今天看啥  ›  专栏  ›  量子位

姚期智团队开源新型注意力,节省90%内存不降性能,一个框架统一MHA/MQA/GQA

量子位  · 公众号  · AI  · 2025-01-15 16:56
    

主要观点总结

文章介绍了新型注意力机制TPA,由姚期智院士团队打造。TPA对每个token做动态的张量分解,不存储完整的静态KV,内存占用可节省90%以上而不会牺牲性能。论文统一了现代注意力设计,新模型T6的代码已在GitHub开源。

关键观点总结

关键观点1: 新型注意力机制TPA的介绍

TPA是对每个token做动态的张量分解,不存储完整的静态KV,通过保留分解的版本,大幅度降低内存占用。

关键观点2: TPA的性能优势

TPA能够大幅度降低内存占用,同时不会牺牲性能。论文证明了流行的MHA、MQA、GQA都是TPA的特殊情况,用同一框架统一了现代注意力设计。

关键观点3: TPA的实验结果

使用新方法训练的模型T6已经在GitHub上开源。论文发布后,有创业者和研究人员表示对TPA的看好,并期待看到更多实验结果。

关键观点4: TPA与其他方法的对比与优势

现有的注意力机制存在计算和内存开销大的缺陷,DeepSeek-v2中的MLA虽然压缩了KV缓存,但与RoPE位置编码不兼容。而TPA能够无缝集成RoPE位置编码,实现以较低的成本旋转分解KV。

关键观点5: 研究团队与合作

论文由清华 & 上海期智研究员团队、UCLA顾全全团队合作。共同一作为清华博士生张伊凡与姚班校友、现UCLA博士生刘益枫,还有来自心动网络Taptap的Qin Zhen参与研究。


免责声明

免责声明:本文内容摘要由平台算法生成,仅为信息导航参考,不代表原文立场或观点。 原文内容版权归原作者所有,如您为原作者并希望删除该摘要或链接,请通过 【版权申诉通道】联系我们处理。

原文地址:访问原文地址
总结与预览地址:访问总结与预览
推荐产品:   推荐产品
文章地址: 访问文章快照