注册
登录
专栏名称:
量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
爱可可-爱生活
·
[CL]《State Space ...
·
昨天
爱可可-爱生活
·
[LG]《Explainable ...
·
昨天
宝玉xp
·
我以前在国内看病的时候,就发现医生看完检查报 ...
·
2 天前
宝玉xp
·
//@12点01:04那年超女天涯简直天天屠 ...
·
4 天前
黄建同学
·
据OpenRouterAI,Google ...
·
4 天前
今天看啥
›
专栏
›
量子位
斯坦福让“GPU高速运转”的新工具火了,比FlashAttention2更快
量子位
·
公众号
·
AI
· 2024-06-06 15:32
文章预览
西风 发自 凹非寺 量子位 | 公众号 QbitAI AI算力资源越发紧张的当下,斯坦福新研究将GPU运行效率再提升一波—— 内核只有1 00行代码, 让H100比使用FlashAttention-2 ,性能还要提升 30% 。 怎么做到的? 研究人员从 “硬件实际需要什么?如何满足这些需求?” 这两个问题出发,设计了 一个嵌入式CUDA DSL工具,名为 ThunderKittens (暂且译为雷猫) 。 雷猫可简化AI内核的编写,同时充分利用底层硬件能力。 具体来说,雷猫的主要抽象是寄存器和共享内存中的 小型张量块 (tile) ,和目前GPU中对小矩阵乘法的优化相匹配。 通过操作这些tile,开发者可相对简单地编写代码,充分利用张量核心、异步数据传输和共享内存等硬件特性。 使用雷猫实现的注意力机制内核,代码量少且能实现很高的硬件利用率,性能超过直接使用底层库 (如Cutlass) 。 详细讨论过程 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
爱可可-爱生活
·
[CL]《State Space Models are Stro-20241223053613
昨天
爱可可-爱生活
·
[LG]《Explainable Procedural Mist-20241223055011
昨天
宝玉xp
·
我以前在国内看病的时候,就发现医生看完检查报告现场用电脑在百度搜-20241222005148
2 天前
宝玉xp
·
//@12点01:04那年超女天涯简直天天屠版。不光八卦,甚至杂-20241220003533
4 天前
黄建同学
·
据OpenRouterAI,Google Gemini 在开发者-20241219215958
4 天前