(本文阅读时间:6分钟) 编者按:近日,来自微软亚洲研究院的研究员们和来自微软 Azure 云平台的工程师们联合发布了一项开创性的、聚焦云 AI 基础设施高可靠性的研究工作:SuperBench 系统。该系统通过主动验证的手段解决了云 AI 基础设施中难以捉摸的“灰色故障”问题。这一研究工作已被全球计算机系统领域的顶级学术会议 USENIX ATC 2024 接收,并荣获最佳论文奖。SuperBench 不仅引起了业界的广泛关注,还有望改变未来云服务提供商确保 AI 基础设施高可靠性的方式,从而为行业树立新的标准。 随着云 AI 工作负载变得越来越复杂和大规模,维护系统的高可靠性变得至关重要。传统的系统高可靠性保障方法,如冗余组件,不经意间引入了一个新的问题——隐性性能退化,又被称为灰色故障。灰色故障由冗余组件的逐渐失效引起,前期主要表现为不
………………………………