专栏名称: GiantPandaCV

专注于机器学习、深度学习、计算机视觉、图像处理等多个方向技术分享。团队由一群热爱技术且热衷于分享的小伙伴组成。我们坚持原创，每天一到两篇原创技术分享。希望在传播知识、分享知识的同时能够启发你，大家一起共同进步(･ω<)☆

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

【翻译】使用PyTorch FSDP最大化训练吞吐量

GiantPandaCV · 公众号 · 3D · 2024-10-20 19:58

文章预览

博客链接：https://pytorch.org/blog/maximizing-training/ 。博客由 IBM 的 PyTorch 团队和 Meta 的 PyTorch 团队撰写。目前Torch也持续在训练Infra上面推理，除了DeepSpeed，Meagtron-LM之外，我们也可以选择PyTorch的FSDP来训练更大的例如72B内的模型。这篇博客介绍了基于FSDP如何对7B/13B/34B/70B的模型在A100/H100上高效训练，所有代码均开源在：https://github.com/foundation-model-stack/fms-fsdp 。除了这个博客中介绍的Pretrain和SFT训练之外，源码里也提供了HF的转换脚本让这个训练的模型可以使用Hugging Face生态中的Post Traning工具。在这篇博客中，我们展示了 FSDP 的可扩展性，以一个预训练示例（一个训练了 2T 个 token 的 7B 模型）为例，并分享了我们用于实现每个 GPU 3,700 个 token/秒的快速训练速度的各种技术，即在 128 个 A100 GPU 上每天处理 40B 个 token。这相当于 57% 的模型 FLOPS 利用率（MFU）和 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博