专栏名称: 数据派THU
本订阅号是“THU数据派”的姊妹账号,致力于传播大数据价值、培养数据思维。
今天看啥  ›  专栏  ›  数据派THU

「注意力实际上是对数的」?七年前的Transformer还有新发现,Karpathy点赞

数据派THU  · 公众号  · 大数据  · 2025-04-08 17:00
    

文章预览

来源:机器之心 本文 约3200字 ,建议阅读 6 分钟 于普通的计算机而言,注意力的深度复杂度更像是O(n log n)。 「注意力实际上是对数的」?一篇博客再次掀起了AI社区对注意力机制的讨论。 作者认为,Transformers 中实现的注意力机制,在计算复杂度上应该被视为对数级别的。 这篇博客,还得到了 Karpathy 的高度肯定: 有时我会在想象中的神经网络完整计算图中将其描述为「广度是免费的,深度是昂贵的」。 据我所知,这首先是 Transformer 背后的主要见解 / 灵感。我第一次真正受到它的震撼是在很久以前我读到 Neural GPU 论文的时候(https://arxiv.org/abs/1511.08228)。 另外,在「从比特到智能」中为什么还要包含 python?删除 python,我认为你可以将其减少约 10 倍,就像 llmc 一样。 我们知道,标准的注意力机制(如 Transformer 中的自注意力)计算步骤如下: ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览