专栏名称: 机器之心
专业的人工智能媒体和产业服务平台
今天看啥  ›  专栏  ›  机器之心

「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞

机器之心  · 公众号  · AI  · 2025-03-23 12:01
    

文章预览

选自 supaiku.com 作者:Spike Doanz 机器之心编译 「注意力实际上是对数的」?今天,一篇博客再次掀起了AI社区对注意力机制的讨论。 作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。 这篇博客,还得到了 Karpathy 的高度肯定: 有时我会在想象中的神经网络完整计算图中将其描述为「广度是免费的,深度是昂贵的」。 据我所知,这首先是 Transformer 背后的主要见解 / 灵感。我第一次真正受到它的震撼是在很久以前我读到 Neural GPU 论文的时候(https://arxiv.org/abs/1511.08228)。 另外,在「从比特到智能」中为什么还要包含 python?删除 python,我认为你可以将其减少约 10 倍,就像 llmc 一样。 我们知道,标准的注意力机制(如 Transformer 中的自注意力)计算步骤如下: 其复杂度主要来源于: 点积计算:QK^⊤ 的矩阵乘法,复杂 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览