文章预览
近段时间,业界遵循scaling laws规模定律持续推动大模型创新迭代,一批大规模智算集群系统正在建设,是各类创新主体进行更大规模模型实验的基础,在推动人工智能走向AGI方面取得一系列突破成果。大规模智算集群已成为国内外各头部厂商训练部署大模型的共识,人工智能与高性能计算系统加速走向融合,但不同尺寸(小模型、十亿级以上大模型、千亿级以上超大规模模型)、不同类型(计算密集、访存密集)的模型负载对训推智算集群规模、技术能力等需求产生显著差异,各型号芯片适用场景也有所差别,分布式训练、异构算力调度等对框架软件能力提出更高要求,如何客观、全面和科学地规划智算设施建设方案,准确选择技术产品确保智算集群有效满足大模型创新和应用主体需求,是算力建设方、运营方和应用方面临的共同问题。 在此背景
………………………………