专栏名称: DevOps运维实战
DevOps和运维领域资深从业者,曾任职于神码、唯品会等多家知名企业。
今天看啥  ›  专栏  ›  DevOps运维实战

引发Openai全球性宕机,原因竟是Kubernetes?

DevOps运维实战  · 公众号  ·  · 2024-12-16 08:08
    

文章预览

2024年12月11日,OpenAI出现了全球性的严重宕机事件,这次事件导致OpenAI的所有服务包括ChatGPT、API和 Sora等都受到了严重影响,甚至出现无法访问的情况。 关于此次事件的起因,目前官方已经出了故障报告,详见:https://status.openai.com/incidents/ctrsv3lwd797。 在本文中,我将带大家深入了解OpenAI的此次故障事件,在别人的错误中得到经验教训。 这次的事件过程的主要时间线如下: 2024年12月11日下午3:17 PST (太平洋标准时间),OpenAI的所有服务开始出现不可用现象。随着时间的推移,问题逐渐加重,导致客户在多个时段无法访问API、ChatGPT及Sora。 下午3:53 PST,工程师发现API调用返回错误,用户无法登录OpenAI平台,问题迅速扩展至多个服务。 随着时间的推移,OpenAI的工程团队最终确定了故障原因,并启动了应急响应。到了下午7:38 PST,所有服务才得以完全恢复 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览