【Transformers】Transformers Assemble（PART II）

机器学习算法与自然语言处理 · 公众号 · · 2020-02-23 00:00

公众号关注 “ML_NLP”设为 “星标”，重磅干货，第一时间送达！写在前面继Transformer系列上一篇，PART II整理了三篇来自Facebook AI Research的论文，都比较好读：「Span Transformer from FAIR，ACL2019」「All-Attention from FAIR」「PKM from FAIR，NeurIPS2019」Adaptive Attention Span in Transformers[1]这篇论文的重点是改进 Transformer 的计算效率，vanilla transformer 每个 attention head 处理的是等长的所有输入序列，但是在实验中发现 Transformer 不同 head 所关注的序列长度 span 是不一样的，一些 head（如 Head A）重点关注附近较短的信息，而另外一些 head（如 Head B）则关注在范围更大的全文。如果能在训练中利用这一特性，就可以显著减少计算时间和内存占用，因为两者都依赖于注意力范围的长度。为此，作者 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照

分享到微博