文章预览
以下 文 章来源于微信公众号:GiantPandaCV 作者: Gi antPanda CV 链接:https://mp.weixin.qq.com/s/M3Mmyl2eOzeSUMRFeR8P3w 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 本文 以Meta LLaMa模型为例, 向大家展示如何通过FSDP2、DTensor等结合float8训练,在保持损失和评估基准一致性的同时,实现比传统FSDP1 bf16训练高50%的吞吐量。 博客来源:https://pytorch.org/blog/training-using-float8-fsdp2/ 。by IBM and Meta 。这里主要是汇总一下FSDP2和FP8训练相关的内容,目前的实践主要集中在TorchTitan(DTensor,Async Tensor Parallelism,FP8 Allgather等等)和torchao上面,包括torch.compile编译器也在做对应的支持,PyTorch对于这个工作其实还没做到很稳定,和Meagtron-LM的FP8类似处于半成品阶段,例如API接口变动就很大,这里可以先简单了解一下他们的进展。以下是PyTorch关于FP8训练最新进展的博客
………………………………