专栏名称: oldpan博客
老潘的博客,程序员眸中的fantasy life,分享AI技术干货,让大家少走弯路~
今天看啥  ›  专栏  ›  oldpan博客

使用float8和FSDP2实现超级训练性能

oldpan博客  · 公众号  ·  · 2024-11-27 17:51
    

文章预览

FSDP(Fully Sharded Data Parallel) 是 PyTorch 中的一种分布式训练技术,用于高效地训练大规模模型。它的核心思想是通过对模型权重和梯度的切片和分片(sharding),减少显存使用和通信开销。FSDP 的主要应用场景是大模型训练,尤其是在显存有限的 GPU 集群上。 翻译自 https://pytorch.org/blog/training-using-float8-fsdp2/ Pytorch中关于FSDP的博文: https://pytorch.org/tutorials/intermediate/FSDP_tutorial.html https://pytorch.org/blog/training-using-float8-fsdp2/ https://pytorch.org/blog/maximizing-training-throughput/ FSDP2 的出现为训练超大规模模型提供了高效、低成本的解决方案,是当前 PyTorch 分布式训练的核心技术之一。 本文展示了如何通过 FSDP2、DTensor 和 torch.compile,结合 torchao 的 float8 优化,实现相较于 FSDP1 bf16 training [1] 速度高达 50% 的提升,同时保持损失函数和评估基准的相等性。这些改进适用于 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览