OpenAI 服务故障CaseStudy来了！原来大厂也犯这样的错

AI工程化 · 公众号 · · 2024-12-15 07:00

文章预览

在笔者前文《什么样的魔力让Gemini 2.0 爆冷抢了OpenAI风头，开辟LLM应用2025新方向》提到，OpenAI在直播第5日（美西12/11 15:16至19:38 ）发生了宕机，持续长达4个多小时，当时有很多人猜测可能是与接入苹果生态带来的压力所致。美西时间12日，OpenAI给出了官方解释，他们犯了所有互联网公司都曾犯过的错。原来这次故障是因为升级导致的。他们本意是想提升集群的可观测性，因此，需要安装监控服务，然而这些新服务会有一些耗资源的重操作，并且这些操作负载成本会随集群规模扩大而扩大（这也是小规模测试时未发现的原因），上线后任务同时执行，导致了控制面瘫痪 (笔者猜测可能是节点上的监控都需要写入读取配置导致etcd负载过高，致使API Server无法处理请求 ) 。更不幸的是，负责接受用户推理等工作负载的数据面服务依赖了控制面的DNS服 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博