注册登录

专栏名称: 量子位

վ'ᴗ' ի 追踪AI行业和技术动态，这里更快一步！关注我们，回复“今天”，更多大新闻等你来发现

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

即刻RSS订阅方法

目录

相关文章推荐

新智元 · 英伟达华人硬核AI神器，「描述一切」秒变细节 ... · 20 小时前

宝玉xp · 把照片变成钥匙扣人偶注意：- ... · 昨天

新智元 · 70%大小，100%准确！完美压缩LLM性能 ... · 昨天

黄建同学 · 确实，AI让我们获得答案变得非常简单，而大部 ... · 昨天

黄建同学 · 针对代码库的Deep Search - ... · 昨天

今天看啥 › 专栏 › 量子位

斯坦福让“GPU高速运转”的新工具火了，比FlashAttention2更快

量子位 · 公众号 · AI · 2024-06-06 15:32

文章预览

西风发自凹非寺量子位 | 公众号 QbitAI AI算力资源越发紧张的当下，斯坦福新研究将GPU运行效率再提升一波—— 内核只有1 00行代码，让H100比使用FlashAttention-2 ，性能还要提升 30% 。怎么做到的？研究人员从 “硬件实际需要什么？如何满足这些需求？” 这两个问题出发，设计了一个嵌入式CUDA DSL工具，名为 ThunderKittens （暂且译为雷猫）。雷猫可简化AI内核的编写，同时充分利用底层硬件能力。具体来说，雷猫的主要抽象是寄存器和共享内存中的小型张量块（tile），和目前GPU中对小矩阵乘法的优化相匹配。通过操作这些tile，开发者可相对简单地编写代码，充分利用张量核心、异步数据传输和共享内存等硬件特性。使用雷猫实现的注意力机制内核，代码量少且能实现很高的硬件利用率，性能超过直接使用底层库（如Cutlass）。详细讨论过程 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新智元 · 英伟达华人硬核AI神器，「描述一切」秒变细节狂魔！仅3B逆袭GPT-4o

20 小时前

宝玉xp · 把照片变成钥匙扣人偶注意：- 上传一张照片- 本图是 sora.-20250427012656

昨天

新智元 · 70%大小，100%准确！完美压缩LLM性能0损失，推理速度最高飙升39倍

昨天

黄建同学 · 确实，AI让我们获得答案变得非常简单，而大部分不会去想答案是如何-20250426151223

昨天

黄建同学 · 针对代码库的Deep Search - DeepWiki可以对任-20250426094110

昨天

布说天下 · 一套房省60万！长沙这6个盘，可以捡漏！

10 月前

金融与数字经济法律研究 · 如何起草数据“三权分置”合同条款——基于数据共享、数据运营、数据授权、数据合作、委托处理、数据交易场景

8 月前

红星新闻 · 纵容男友虐杀8岁亲生儿子，美国一女子被判50年监禁！其余三个孩子无人照管，与兄弟尸体生活一年多

5 月前

HRTechChina · 深圳福田70余名"AI公务员"上岗，基于 DeepSeek，覆盖公文处理、民生服务等 240 个场景

2 月前

武志红心理 · 你的人格是否强大，就看这5个维度

2 月前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科 · 小百科（海外） · Link管理

今天看啥 - 公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

© 2025 ~ 沪ICP备11025650号