专栏名称: Ai fighting
本公众号主要分享自动驾驶感知实战,从算法训练到模型部署。主要致力于3D目标检测,3D目标追踪,多传感器融合,Transform,BEV,OCC,模型量化,模型部署等方向的实战。
目录
相关文章推荐
每日人物  ·  董明珠,背水一战 ·  17 小时前  
人物  ·  不规划也没关系 ·  2 天前  
今天看啥  ›  专栏  ›  Ai fighting

[论文] 异构GPU集群上大模型训练推理续

Ai fighting  · 公众号  ·  · 2024-08-30 23:03
    

文章预览

HAP - SPMD DNN Training on Heterogeneous GPU Clusters with Automated Program Synthesis(EuroSys‘24) 摘要 HAP是一个自动化系统,旨在加速在异构集群上的SPMD(Single-Program-Multiple-Data)类型模型训练。 通过优化张量分片策略、异构设备间的分片比例和张量通信方法,实现分布式训练的优化。HAP将模型分割问题表述为自动化程序合成问题(Automated Program Synthesis),通过A*搜索算法在分布式指令集上生成分布式程序,同时解决最优张量分片比例的问题,进而按照SPMD计算范式并行执行。 问题挑战 解决在异构集群上训练大模型时,如何有效利用不同GPU设备及网络连接等资源。  欢迎加入自动驾驶实战群 详细解决方案 执行流程 HAP整体执行流程如下图所示, HAP的用户API类似于PyTorch内置的DDP模块:用户使用单设备PyTorch模型和设备规范的Python字典调用hap.HAP函数,该函数返回可以在 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览