专栏名称: InfoQ 架构头条
InfoQ运维领域垂直号。常规运维、亦或是崛起的DevOps,探讨如何IT交付实现价值。努力为技术人呈现有实践意义的内容~
目录
今天看啥  ›  专栏  ›  InfoQ 架构头条

对 OpenAI 故障的思考|如何让 Kubernetes 更稳定?

InfoQ 架构头条  · 公众号  · 运维  · 2025-01-08 15:00
    

文章预览

作者 | 阿里云容器服务高级技术专家 张维 (贤维)、 阿里云容器服务技 术专家 刘佳旭 (佳旭) 从 OpenAI 集群故障谈起 2024 年 12 月 11 日,OpenAI 出现了全球范围内的服务不可用故障,影响了 ChatGPT,API,Sora 等服务,故障持续时间超过四个小时,产生了严重影响。根据 OpenAI 在事后发布的故障报 告 [1]  ,此次故障的直接原因是升级监控组件导致 Kubernetes 集群控制面过载,然后因为数据面 CoreDNS 对控制面有强依赖导致影响应用服务,进一步放大了故障影响。 (请参考详细故障报 告 [2] ) 近年来,无论是在国内还是国际,我们都见证了许多自建 Kubernetes 集群遭遇故障的案例,这些故障为从事容器基础设施管理的人员提供了宝贵的学习机会。 从 Kubernetes 集群管理的视角,此次故障中值得被关注的技术问题有: OpenAI 自建 K8s 集群的单集群规模很大。 一个部 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览