专栏名称: NVIDIA企业开发者社区

NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台，通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

开发者新闻 | 下一代 FlashAttention

NVIDIA企业开发者社区 · 公众号 · · 2024-07-29 16:14

文章预览

下一代 FlashAttention NVIDIA 很高兴能与 Colfax、Together.ai、Meta 和普林斯顿大学合作，利用 Grace Hopper GPU 架构和Tensor Cores，并使用 CUTLASS 3 加速关键的融合注意力内核。 FlashAttention-3 结合了关键技术，实现了比FlashAttention-2快1.5–2.0倍的性能，最高可达 740 TFLOPS。在FP8中，FlashAttention-3达到1.2 PFLOPS，误差比基准FP8小2.6倍。 CUTLASS是一个开源的CUDA库，旨在使深度学习和HPC从业者能够在NVIDIA Tensor Core GPU上实现光速性能，用于自定义算法和研究和生产负载。有关合作的更多信息，请参阅 FlashAttention-3：快速和准确的注意力与异步和低精度的帖子和研究论文。全文链接： https://developer.nvidia.com/blog/next-generation-of-flashattention/ 使用 NVIDIA NIM 实现多语种大语言模型部署对于在当今全球化商业环境中运营的企业而言，多语种大型语言模型(LLM)的重要性与日俱增。随 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博