主要观点总结
OpenAI旗下AI聊天机器人平台ChatGPT、视频生成工具Sora及其面向开发人员的API发生全球性服务中断。文章介绍了故障发生的经过、原因以及OpenAI为恢复服务所采取的措施。此次故障源自新部署的遥测服务无意压垮了Kubernetes控制平面,导致关键系统发生连锁故障。OpenAI发布了一份完整的事故报告,分析了事件的影响、根本原因、补救措施以及预防措施。
关键观点总结
关键观点1: 故障经过
OpenAI旗下服务在太平洋时间下午3点左右发生严重中断,导致ChatGPT、Sora及API无法使用,影响全球用户。社交媒体上出现了各种反应,从玩笑、嘲讽到幽默、恼怒,各种情绪都有。OpenAI很快承认问题的存在并着手修复,但耗费了约三个小时才顺利恢复所有服务。
关键观点2: 故障原因
故障的根源是新部署的遥测服务配置导致Kubernetes控制平面承受了巨大的API负载,进而引发了连锁反应。这个问题在规模较大的集群中尤为明显。DNS缓存在一定程度上掩盖了问题,使得测试未能及时发现。
关键观点3: 补救措施
OpenAI在客户感受到影响的几分钟内就检测到了问题,但由于必须绕过不堪重负的Kubernetes服务器,因此无法快速实施修复。他们采取了缩小集群规模、阻止对管理员API的网络访问以及扩展API服务器等措施来恢复服务。
关键观点4: 预防措施
为了防止类似事件再次发生,OpenAI正实施多项预防措施,包括改进登台发布机制、进行故障注入测试、应急Kubernetes控制平面访问、解耦Kubernetes数据平面与控制平面以及加快恢复速度等。
文章预览
来自公众号: InfoQ+ 编译 | 核子可乐、Tina 本周四,OpenAI 旗下 AI 聊天机器人平台 ChatGPT、视频生成工具 Sora 及其面向开发人员的 API 自太平洋时间下午 3 点左右起发生严重中断。 OpenAI 最近宕机频繁。上个月,ChatGPT 突发故障,导致服务中断近半小时,超过 19,000 人受到影响。OpenAI CEO Sam Altman 随后在社交媒体 X 上公开致歉。他表示,公司在可靠性方面比以往有了很大的进步,但仍有许多工作要做。最后他还加了一句:“根据 Similarweb 的数据,它现在是全球第八大网站”。 没想到仅仅一个月时间后,又发生了全球性服务中断事件。社交媒体上充斥着对 ChatGPT 宕机的各种反应,从玩笑、嘲讽到幽默、恼怒,各种情绪应有尽有。有人夸张的说,全球学术界(留子教育版)倒退了 100 年。还有人调侃说应该试试“祖传”的电脑维修大法:“你试过关掉再打开
………………………………