大模型训练为什么用 A100 不用 4090

大数据与机器学习文摘 · 公众号 · 大数据 · 2024-06-27 11:50

文章预览

作者：李博杰来源：https://zhuanlan.zhihu.com/p/655402388 这是一个好问题。先说结论，大模型的训练用 4090 是不行的，但推理（inference/serving）用 4090 不仅可行，在性价比上还能比 H100 稍高。4090 如果极致优化，性价比甚至可以达到 H100 的 2 倍。事实上， H100/A100 和 4090 最大的区别就在通信和内存上，算力差距不大。 H100 A100 4090 Tensor FP16 算力 989 Tflops 312 Tflops 330 Tflops Tensor FP32 算力 495 Tflops 156 Tflops 83 Tflops 内存容量 80 GB 80 GB 24 GB 内存带宽 3.35 TB/s 2 TB/s 1 TB/s 通信带宽 900 GB/s 900 GB/s 64 GB/s 通信时延 ~1 us ~1 us ~10 us 售价 40000 $15000 $1600 NVIDIA 的算力表里面油水很多，比如 H100 TF16 算力写的是 1979 Tflops，但那是加了 sparsity（稀疏）的，稠密的算力只有一半；4090 官方宣传 Tensor Core 算力高达 1321 Tflops，但那是 int8 的，FP16 直只有 330 Tflops。这篇文章的第一版就是用了错 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博