文章预览
原文:https://zhuanlan.zhihu.com/p/619431625 1. Background 硬件的支持 许多硬件厂商的芯片开始支持 FP8 的计算,如英伟达最新的两种架构 Ada (4090) 和 Hopper (H100)。它们的 Tensor Core 计算单元都开始支持 FP8 的计算,如图所示: 在 H100 的第四代 Tensor Core 中,支持任意的 FP8 格式矩阵的乘法 (E4M3xE4M3, E5M2xE5M2, E4M3xE5M2, E5M2xE4M3) 然后会进行累加到 FP32 和 FP16 的数据格式之中 同时也支持浮点格式之间的互相转换,如下图 FP8 好处 FP8 Tensor Cores 比 16-bit Tensor Cores 快 减少 memory movement 如果模型已经在 FP8 中进行,部署更加方便 FP8 拥有更宽的动态范围 FP8 到 FP16/FP32/BF16 之间的转换电路,可以设计得更简单直接,而不需要像INT8/UINT8到FP的转化需要乘法和加法的开销。 2. FP8 TYPES 先简单回顾一下浮点数的表示方式: IEEE 754 浮点数会分为符号位(sign), 指数位 (exponent), 和小数
………………………………