PyTorch 模型，原生FP8训练进展

江大白 · 公众号 · · 2025-01-09 08:00

文章预览

以下文章来源于微信公众号：GiantPandaCV 作者： Gi antPanda CV 链接：https://mp.weixin.qq.com/s/M3Mmyl2eOzeSUMRFeR8P3w 本文仅用于学术分享，如有侵权，请联系后台作删文处理导读本文以Meta LLaMa模型为例，向大家展示如何通过FSDP2、DTensor等结合float8训练，在保持损失和评估基准一致性的同时，实现比传统FSDP1 bf16训练高50%的吞吐量。博客来源：https://pytorch.org/blog/training-using-float8-fsdp2/ 。by IBM and Meta 。这里主要是汇总一下FSDP2和FP8训练相关的内容，目前的实践主要集中在TorchTitan（DTensor，Async Tensor Parallelism，FP8 Allgather等等）和torchao上面，包括torch.compile编译器也在做对应的支持，PyTorch对于这个工作其实还没做到很稳定，和Meagtron-LM的FP8类似处于半成品阶段，例如API接口变动就很大，这里可以先简单了解一下他们的进展。以下是PyTorch关于FP8训练最新进展的博客 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博