专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

FP8 量化基础 - 英伟达

oldpan博客  · 公众号  ·  · 2024-06-26 10:10
    

文章预览

原文:https://zhuanlan.zhihu.com/p/619431625 1. Background 硬件的支持 许多硬件厂商的芯片开始支持 FP8 的计算,如英伟达最新的两种架构 Ada (4090) 和 Hopper (H100)。它们的 Tensor Core 计算单元都开始支持 FP8 的计算,如图所示: 在 H100 的第四代 Tensor Core 中,支持任意的 FP8 格式矩阵的乘法 (E4M3xE4M3, E5M2xE5M2, E4M3xE5M2, E5M2xE4M3) 然后会进行累加到 FP32 和 FP16 的数据格式之中 同时也支持浮点格式之间的互相转换,如下图 FP8 好处 FP8 Tensor Cores 比 16-bit Tensor Cores 快 减少 memory movement 如果模型已经在 FP8 中进行,部署更加方便 FP8 拥有更宽的动态范围 FP8 到 FP16/FP32/BF16 之间的转换电路,可以设计得更简单直接,而不需要像INT8/UINT8到FP的转化需要乘法和加法的开销。 2. FP8 TYPES 先简单回顾一下浮点数的表示方式: IEEE 754 浮点数会分为符号位(sign), 指数位 (exponent), 和小数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览