今天看啥  ›  专栏  ›  腾讯云

大模型训练再提速20%!腾讯星脉网络2.0来了

腾讯云  · 公众号  ·  · 2024-07-01 16:21

文章预览

花重金好不容易才买到的GPU,可能有一半时间都在“偷懒”?!   大模型算力集群就像协作严密的“超级工厂”,员工 (GPU) 完成阶段性“交付” (计算结果输出) 后,必须与其他同事“拉通” (计算结果同步) 才能开始新一轮工作。 而拉通时间 (集群通信时间) 在整体工期中最高占比可达50%,任何一个环节出错 (单点故障) 都可能导致整座工厂停摆 (集群宕机) 。 算力资源越来越紧缺、成本越来越高昂,事关效率的“夺命三问”,大模型厂商处理好了吗: 协作速度 (通信速度) 能不能更快一点? 拉通成本 (通信损耗) 能不能更低一点? 问题处理 (故障定位) 能不能更准一点? 刚刚,腾讯自研星脉高性能计算网络全面升级,相比上一代: 支持单集群10万卡组网, 规模翻倍 网络通信效率提升60% 让大模型训练效率提升20% 故障定位 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览