专栏名称: CV技术指南
长期更新:深度学习、计算机视觉相关技术的总结;图像处理相关知识;最新论文;经典论文;论文综述、tensorflow和pytorch等内容总结。涉及领域 :神经网络模型、transformer模型、目标检测、语义分割、目标跟踪、视频理解等。
今天看啥  ›  专栏  ›  CV技术指南

SUPRA:无须额外训练,将Transformer变为高效RNN,推理速度倍增

CV技术指南  · 公众号  ·  · 2024-06-11 09:10
    

文章预览

前言   SUPRA方法旨在将预训练的大型语言模型(LLMs)转化为RNNs,具体步骤包括替换softmax归一化为GroupNorm,使用一个小型MLP投影queries和keys。这种方法不仅降低了训练成本(仅为原来的5%),还利用了现有预训练模型的强大性能和数据。 Pytorch训练营,花两个星期彻底掌握代码实现 CV各大方向专栏与各个部署框架最全教程整理 CV全栈指导班、基础入门班、论文指导班 全面上线!! Transformers 面临着与序列长度线性增长的高推理成本。相比之下,rnn提供固定成本推理,因为它们能够保持恒定大小的隐藏状态,这使得它们对于需要高效和可扩展推理的任务具有吸引力。 引入线性Transformers的概念,减轻了标准softmax注意机制的计算开销。线性Transformers用线性相似函数代替softmax,该函数可以重新表述为像RNN一样工作。但在许多基准测试中,线性Transformers的表现 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览