一个有情怀的公众号。机器学习、自然语言处理、算法等知识集中营、期待与你相遇~
今天看啥  ›  专栏  ›  机器学习算法与自然语言处理

【Transformers】Transformers Assemble(PART II)

机器学习算法与自然语言处理  · 公众号  ·  · 2020-02-23 00:00
公众号关注 “ML_NLP”设为 “星标”,重磅干货,第一时间送达!写在前面继Transformer系列上一篇,PART II整理了三篇来自Facebook AI Research的论文,都比较好读:「Span Transformer from FAIR,ACL2019」「All-Attention from FAIR」「PKM from FAIR,NeurIPS2019」Adaptive Attention Span in Transformers[1]这篇论文的重点是改进 Transformer 的计算效率,vanilla transformer 每个 attention head 处理的是等长的所有输入序列,但是在实验中发现 Transformer 不同 head 所关注的序列长度 span 是不一样的,一些 head(如 Head A)重点关注附近较短的信息,而另外一些 head(如 Head B)则关注在范围更大的全文。如果能在训练中利用这一特性,就可以显著减少计算时间和内存占用,因为两者都依赖于注意力范围的长度。为此,作者 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照