专栏名称: Ai fighting
本公众号主要分享自动驾驶感知实战,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
目录
相关文章推荐
今天看啥  ›  专栏  ›  Ai fighting

PyTorchConf2024,利用Torch.Compile、FSDP2、FP8等技术加速LLM训练

Ai fighting  · 公众号  ·  · 2024-10-13 07:00

文章预览

本次pytorch24大会上,除了介绍pytorch新特性功能外,还做了 编译器CPU加速、 数据加速、边缘加速、训练加速等实践分享。 本文主要介绍在pytorch中如何做训练加速,中间会穿插torch.compile+FSDP、 数据加速 等内容做补充。 大模型训练的原生pytorhc库torchtitan,当前支持N-D并行、torch.compile、选择性激活ckp(SAC)、分布式ckp、FP8、监控等功能。  欢迎加入自动驾驶实战群 FSDP通过FlatParameter(展开、连接一组参数)表示通信桶,但也使得对FlatParameter内的各个参数灵活性扩展性不足,例如参数冻结、参数转换等,降低可组合性。 考虑到上述限制, 删除FlatParameter并重写 FSDP,将重写后版本称为FSDP2,将原始版本称为FSDP1。FSDP2 的目标保持不变,仍致力于在 eager 模式下获得良好的性能,同时保持很多相同技术实现。 FSDP2是FSDP的改进版本,主要有以下一些特性: 基 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览
推荐文章