文章预览
原文链接 https://mp.weixin.qq.com/s/M9p-QSJhAmtX736JZ-Lv3A Transformer目前已经成为人工智能领域的主流模型,应用非常广泛。然而Transformer中注意力机制计算代价较高,随着序列长度的增加,这个计算量还会持续上升。 为了解决这个问题,业内出现了许多Transformer的魔改工作,以优化Transformer的运行效率。我这次就给大家 分享9篇对Transformer模型进行效率优化的改进文章,以方便大家更高效地使用模型,寻找论文创新点 。 文章主要涉及4个方向:稀疏注意力机制、Transformer处理长文本、Transformer运行提效以及卷积Attention,原文及源码都已整理 一、稀疏注意力机制 1.1 Longformer: The Long-Document Transformer 长文档Transformer 「方法简述:」Transformer-based models处理长序列时存在困难,因为它们的自注意力操作与序列长度呈二次方关系。 Longformer通过引入一个与序列长度呈线性关
………………………………