OpenAI 史上最长宕机：自研 K8s 成“拦路虎”，导致数小时无法修复

运维 · 公众号 · 运维 · 2024-12-25 12:28

主要观点总结

OpenAI旗下AI聊天机器人平台ChatGPT、视频生成工具Sora及其面向开发人员的API发生全球性服务中断。文章介绍了故障发生的经过、原因以及OpenAI为恢复服务所采取的措施。此次故障源自新部署的遥测服务无意压垮了Kubernetes控制平面，导致关键系统发生连锁故障。OpenAI发布了一份完整的事故报告，分析了事件的影响、根本原因、补救措施以及预防措施。

关键观点总结

关键观点1: 故障经过

OpenAI旗下服务在太平洋时间下午3点左右发生严重中断，导致ChatGPT、Sora及API无法使用，影响全球用户。社交媒体上出现了各种反应，从玩笑、嘲讽到幽默、恼怒，各种情绪都有。OpenAI很快承认问题的存在并着手修复，但耗费了约三个小时才顺利恢复所有服务。

关键观点2: 故障原因

故障的根源是新部署的遥测服务配置导致Kubernetes控制平面承受了巨大的API负载，进而引发了连锁反应。这个问题在规模较大的集群中尤为明显。DNS缓存在一定程度上掩盖了问题，使得测试未能及时发现。

关键观点3: 补救措施

OpenAI在客户感受到影响的几分钟内就检测到了问题，但由于必须绕过不堪重负的Kubernetes服务器，因此无法快速实施修复。他们采取了缩小集群规模、阻止对管理员API的网络访问以及扩展API服务器等措施来恢复服务。

关键观点4: 预防措施

为了防止类似事件再次发生，OpenAI正实施多项预防措施，包括改进登台发布机制、进行故障注入测试、应急Kubernetes控制平面访问、解耦Kubernetes数据平面与控制平面以及加快恢复速度等。

文章预览

来自公众号： InfoQ+ 编译 | 核子可乐、Tina 本周四，OpenAI 旗下 AI 聊天机器人平台 ChatGPT、视频生成工具 Sora 及其面向开发人员的 API 自太平洋时间下午 3 点左右起发生严重中断。 OpenAI 最近宕机频繁。上个月，ChatGPT 突发故障，导致服务中断近半小时，超过 19,000 人受到影响。OpenAI CEO Sam Altman 随后在社交媒体 X 上公开致歉。他表示，公司在可靠性方面比以往有了很大的进步，但仍有许多工作要做。最后他还加了一句：“根据 Similarweb 的数据，它现在是全球第八大网站”。没想到仅仅一个月时间后，又发生了全球性服务中断事件。社交媒体上充斥着对 ChatGPT 宕机的各种反应，从玩笑、嘲讽到幽默、恼怒，各种情绪应有尽有。有人夸张的说，全球学术界（留子教育版）倒退了 100 年。还有人调侃说应该试试“祖传”的电脑维修大法：“你试过关掉再打开 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博