NVIDIA 英伟达开发者社区是NVIDIA GPU开发者交流平台,通过此平台可第一时间获取NVIDIA GPU 开发相关的新产品、新工具、线上/线下活动的资讯。
今天看啥  ›  专栏  ›  NVIDIA企业开发者社区

开发者新闻 | 下一代 FlashAttention

NVIDIA企业开发者社区  · 公众号  ·  · 2024-07-29 16:14

文章预览

 下一代 FlashAttention  NVIDIA 很高兴能与 Colfax、Together.ai、Meta 和普林斯顿大学合作,利用 Grace Hopper GPU 架构和Tensor Cores,并使用 CUTLASS 3 加速关键的融合注意力内核。 FlashAttention-3 结合了关键技术,实现了比FlashAttention-2快1.5–2.0倍的性能,最高可达 740 TFLOPS。在FP8中,FlashAttention-3达到1.2 PFLOPS,误差比基准FP8小2.6倍。 CUTLASS是一个开源的CUDA库,旨在使深度学习和HPC从业者能够在NVIDIA Tensor Core GPU上实现光速性能,用于自定义算法和研究和生产负载。 有关合作的更多信息,请参阅 FlashAttention-3:快速和准确的注意力与异步和低精度的帖子和研究论文。 全文链接: https://developer.nvidia.com/blog/next-generation-of-flashattention/  使用 NVIDIA NIM 实现多语种大语言模型部署  对于在当今全球化商业环境中运营的企业而言,多语种大型语言模型(LLM)的重要性与日俱增。随 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览