今天看啥  ›  专栏  ›  微软亚洲研究院

USENIX ATC 2024最佳论文 | 微软如何提升云AI基础设施的可靠性

微软亚洲研究院  · 公众号  · AI  · 2024-07-31 17:17

文章预览

(本文阅读时间:6分钟) 编者按:近日,来自微软亚洲研究院的研究员们和来自微软 Azure 云平台的工程师们联合发布了一项开创性的、聚焦云 AI 基础设施高可靠性的研究工作:SuperBench 系统。该系统通过主动验证的手段解决了云 AI 基础设施中难以捉摸的“灰色故障”问题。这一研究工作已被全球计算机系统领域的顶级学术会议 USENIX ATC 2024 接收,并荣获最佳论文奖。SuperBench 不仅引起了业界的广泛关注,还有望改变未来云服务提供商确保 AI 基础设施高可靠性的方式,从而为行业树立新的标准。 随着云 AI 工作负载变得越来越复杂和大规模,维护系统的高可靠性变得至关重要。传统的系统高可靠性保障方法,如冗余组件,不经意间引入了一个新的问题——隐性性能退化,又被称为灰色故障。灰色故障由冗余组件的逐渐失效引起,前期主要表现为不 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览