专栏名称: NewBeeNLP
一个自然语言处理&人工智能的原创杂货铺子,希望能找到你喜欢的小玩意儿
目录
今天看啥  ›  专栏  ›  NewBeeNLP

八问八答搞懂Transformer内部运作原理

NewBeeNLP  · 公众号  ·  · 2024-08-09 11:05

文章预览

七年前,论文《Attention is all you need》提出了 transformer 架构,颠覆了整个深度学习领域。 如今,各家大模型都以 transformer 架构为基础,但 transformer 内部运作原理,仍是一个未解之谜。 去年,transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期,Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文,探究了预训练 transformer 中的信息流,并针对仅解码器和仅编码器冻结 transformer 模型进行了一系列实验。请注意,该研究没有对预训练模型进行任何类型的微调。 论文地址:https://arxiv.org/pdf/2407.09298v1 该研究认为 transformer 的内部机制(特别是中间层)可以类比画家作画流水线来理解。 作画流水线通常是将画布(输入)传递给一系列画家。有些画家擅长画鸟类,而另一些画家则擅长画轮子。每个画家从其下一级画家那里收到画布,然 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览