FP8训练新范式：减少40%显存占用，训练速度提高1.4倍

机器之心 · 公众号 · AI · 2025-03-07 09:38

文章预览

近期DeepSeek V3 引爆国内外的社交媒体，他们在训练中成功应用了 FP8 精度，显著降低了 GPU 内存使用和计算开销。这表明， FP8 量化技术在优化大型模型训练方面正发挥着越来越重要的作用。近期，来自伯克利，英伟达，MIT 和清华的研究者们提出了显存高效的 FP8 训练方法：COAT（ C ompressing O ptimizer states and A ctivation for Memory-Efficient FP8 T raining），致力于通过 FP8 量化来压缩优化器状态和激活值，从而提高内存利用率和训练速度。COAT 实现了端到端内存占用减少 1.54 倍，端到端训练速度提高 1.43 倍，同时保持模型精度。它还可以使训练批次大小加倍，从而更好地利用 GPU 资源。通过利用 FP8 精度，COAT 使大型模型的高效全参数训练在更少的 GPU 上成为可能，并有助于在分布式训练环境中加倍批次大小，为大规模模型训练的扩展提供了实用的解决 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博