专栏名称: PaperWeekly
PaperWeekly是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。社区:http://paperweek.ly | 微博:@PaperWeekly
今天看啥  ›  专栏  ›  PaperWeekly

​Transformer升级之路:从Performer到线性Attention

PaperWeekly  · 公众号  · 科研  · 2021-04-25 18:13

文章预览

©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP、神经网络 看过笔者之前的文章 线性Attention的探索:Attention 必须有个 Softmax 吗? 和 Performer:用随机投影将 Attention 的复杂度线性化 的读者,可能会觉得本文的标题有点不自然,因为是先有线性 Attention 然后才有 Performer 的,它们的关系为“Performer 是线性 Attention 的一种实现,在保证线性复杂度的同时保持了对标准 Attention 的近似”,所以正常来说是“从线性 Attention 到 Performer”才对。 然而,本文并不是打算梳理线性 Attention 的发展史,而是打算反过来思考 Performer 给线性 Attention 所带来的启示,所以是“从 Performer 到线性 Attention”。 激活函数 线性 Attention 的常见形式是: 其中 、 是值域非负的激活函数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览