文章预览
智算集群是打造大模型的标配。为了支撑更多、更大规模的模型训练与推理,智算集群建设速度和规模正在飞速增长。 NVIDIA GPU是构建智算集群的首选计算芯片,但是受产能不足、国际环境等复杂因素的影响,很难实现大规模采购,甚至一卡难求。这给智算集群的构建带来了一定的挑战,但也给国产GPU厂商的产品应用落地提供了机会。 不同厂家的GPU在架构、通信库、软件栈方面均存在巨大差异,如何实现不同架构GPU之间的互联互通、高效稳定的通信,以及有效的算力聚合与调度,是异构GPU集群构建面临的巨大挑战。 为了应对上述问题,基流科技构建了面向异构GPU集群的超互联解决方案Helios,以及算力基础设施监控运维平台和大规模异构GPU算力调度平台,能够实现智算集群中大规模异构GPU之间的高效互联互通、运维管理和算力调度。 12月19日19:30 ,
………………………………