专栏名称: GiantPandaCV
专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创,每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你,大家一起共同进步(・ω<)☆
目录
相关文章推荐
GiantPandaCV  ·  SGLang 后端原文解析 ·  1 周前  
今天看啥  ›  专栏  ›  GiantPandaCV

【翻译】Accelerating Llama3 FP8 Inference with Triton Kernels

GiantPandaCV  · 公众号  · 3D  · 2024-08-22 20:49

文章预览

翻译:https://pytorch.org/blog/accelerating-llama3/ Accelerating Llama3 FP8 Inference with Triton Kernels by Adnan Hoque, Less Wright, Chih Chieh Yang 1.0 总结 我们提出了一种优化的Triton FP8 GEMM(通用矩阵乘法)kernel TK-GEMM,它利用了SplitK并行化。对于小batch size推理,在NVIDIA H100 GPU上针对Llama3-70B,TK-GEMM相比基础Triton矩阵乘法实现可提供高达 1.94 倍的性能提升,比cuBLAS FP8快 1.87 倍,比 cuBLAS FP16 快1.71倍。 图1. TK-GEMM相对于PyTorch(调用cuBLAS)在Llama3-70B注意力层矩阵形状下的加速比(N=K=8192) 在这篇博客中,我们将介绍如何使用Triton为FP8推理设计一个高效的kernel,并针对Llama3-70B推理进行调优。我们将讨论FP8(8位浮点数),这是Hopper代GPU(SM90)支持的新数据类型,Triton支持的SM90的关键特性,以及我们如何修改并行化以便能够为内存受限(推理)问题规模最大化内存吞吐量。 我们还专 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览