专栏名称: 阿里云
阿里云计算
今天看啥  ›  专栏  ›  阿里云

显著提升深度学习 GPU 利用率,阿里云拿下国际网络顶会优胜奖!

阿里云  · 公众号  ·  · 2024-08-13 17:37

文章预览

国际网络通信顶会SIGCOMM 近日闭幕 阿里云共有7篇论文入选 其中,AI网络调度成果论文 斩获SIGCOMM 2024优胜奖! 图|阿里云获 SIGCOMM 2024 优胜奖论文 SIGCOMM 评审 专家认为  —— Crux 解决了多租环境深度学习中的一个基础性问题,通过理论创新和实践分析设计了一套高效的解决方案,因此授予 Crux 成果论文SIGCOMM优胜奖。 此次,获奖论文 Crux: GPU-Efficient Communication Scheduling for Deep Learning Training   介绍了阿里云自研的集合通信优化调度器 Crux,其可提升高达 14.8%的GPU 计算利用率。 阿里云网络研发团队从实际业务环境的深度学习任务出发,发现任务之间存在通信竞争,是GPU集群的训练效率不高的基础性原因。 对此,团队从学术理论层面突破,证明了GPU利用率问题与基于任务优先级的通信调度问题是近似的,进而创新设计了集合通信优化调度器 Crux,实现更高 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览