八问八答搞懂Transformer内部运作原理

NewBeeNLP · 公众号 · · 2024-08-09 11:05

文章预览

七年前，论文《Attention is all you need》提出了 transformer 架构，颠覆了整个深度学习领域。如今，各家大模型都以 transformer 架构为基础，但 transformer 内部运作原理，仍是一个未解之谜。去年，transformer 论文作者之一 Llion Jones 宣布创立人工智能公司 Sakana AI。近期，Sakana AI 发表了一篇题为《Transformer Layers as Painters》的论文，探究了预训练 transformer 中的信息流，并针对仅解码器和仅编码器冻结 transformer 模型进行了一系列实验。请注意，该研究没有对预训练模型进行任何类型的微调。论文地址：https://arxiv.org/pdf/2407.09298v1 该研究认为 transformer 的内部机制（特别是中间层）可以类比画家作画流水线来理解。作画流水线通常是将画布（输入）传递给一系列画家。有些画家擅长画鸟类，而另一些画家则擅长画轮子。每个画家从其下一级画家那里收到画布，然 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

清廉海南 · 全省落实基本养老保险待遇310.35亿元、174.75万人海南着力推动社保医保经办事业高质量发展

昨天

北京亦庄 · 人形机器人受邀当央视记者，打卡北京亦庄自动驾驶

5 月前

房地产投资融资俱乐部 · 许家印前妻的“破产”生活：英国住豪宅，每月20万生活费

2 月前

青纳 · Adv Mater｜基于聚集诱导发光光敏剂的光纤介导I型光动力疗法治疗脑胶质母细胞瘤

1 月前