主要观点总结
文章介绍了新型注意力机制TPA,由姚期智院士团队打造。TPA对每个token做动态的张量分解,不存储完整的静态KV,内存占用可节省90%以上而不会牺牲性能。论文统一了现代注意力设计,新模型T6的代码已在GitHub开源。
关键观点总结
关键观点1: 新型注意力机制TPA的介绍
TPA是对每个token做动态的张量分解,不存储完整的静态KV,通过保留分解的版本,大幅度降低内存占用。
关键观点2: TPA的性能优势
TPA能够大幅度降低内存占用,同时不会牺牲性能。论文证明了流行的MHA、MQA、GQA都是TPA的特殊情况,用同一框架统一了现代注意力设计。
关键观点3: TPA的实验结果
使用新方法训练的模型T6已经在GitHub上开源。论文发布后,有创业者和研究人员表示对TPA的看好,并期待看到更多实验结果。
关键观点4: TPA与其他方法的对比与优势
现有的注意力机制存在计算和内存开销大的缺陷,DeepSeek-v2中的MLA虽然压缩了KV缓存,但与RoPE位置编码不兼容。而TPA能够无缝集成RoPE位置编码,实现以较低的成本旋转分解KV。
关键观点5: 研究团队与合作
论文由清华 & 上海期智研究员团队、UCLA顾全全团队合作。共同一作为清华博士生张伊凡与姚班校友、现UCLA博士生刘益枫,还有来自心动网络Taptap的Qin Zhen参与研究。
文章预览
梦晨 发自 凹非寺 量子位 | 公众号 QbitAI 新型注意力机制 TPA , 姚期智 院士团队打造。 TPA对每个token做动态的张量分解,不存储完整的静态KV,而是保留分解的版本, 内存占用节省90% (或者更多),而不会牺牲性能。 论文中还证明了流行的MHA、MQA、GQA都是TPA的特殊情况,用 一个框架统一了现代注意力设计 。 用此方法训练的 新模型T6 ,代码已在GitHub开源。 论文发布后,有创业者表示,终于不用付那么多钱给云厂商了。 也有研究者认为,论文中的实验看起来很有希望,不过实验中的模型规模有点小,希望看到更多结果。 动态张量分解,无缝集成RoPE 尽管现有的注意力机制在众多任务中取得了不错的效果,但它还是有计算和内存开销大的缺陷。 DeepSeek-v2中提出的 MLA压缩了KV缓存,但与RoPE位置编码不兼容 ,每个注意力头需要额外的位置编码参数。
………………………………