文章预览
本次pytorch24大会上,除了介绍pytorch新特性功能外,还做了 编译器CPU加速、 数据加速、边缘加速、训练加速等实践分享。 本文主要介绍在pytorch中如何做训练加速,中间会穿插torch.compile+FSDP、 数据加速 等内容做补充。 大模型训练的原生pytorhc库torchtitan,当前支持N-D并行、torch.compile、选择性激活ckp(SAC)、分布式ckp、FP8、监控等功能。 欢迎加入自动驾驶实战群 FSDP通过FlatParameter(展开、连接一组参数)表示通信桶,但也使得对FlatParameter内的各个参数灵活性扩展性不足,例如参数冻结、参数转换等,降低可组合性。 考虑到上述限制, 删除FlatParameter并重写 FSDP,将重写后版本称为FSDP2,将原始版本称为FSDP1。FSDP2 的目标保持不变,仍致力于在 eager 模式下获得良好的性能,同时保持很多相同技术实现。 FSDP2是FSDP的改进版本,主要有以下一些特性: 基
………………………………