文章预览
在笔者前文《 什么样的魔力让Gemini 2.0 爆冷抢了OpenAI风头,开辟LLM应用2025新方向 》 提到,OpenAI在直播第5日(美西12/11 15:16至19:38 )发生了宕机,持续长达4个多小时,当时有很多人猜测可能是与接入苹果生态带来的压力所致。 美西时间12日,OpenAI给出了官方解释,他们犯了所有互联网公司都曾犯过的错。原来这次故障是因为升级导致的。他们本意是想提升集群的可观测性,因此,需要安装监控服务,然而这些新服务会有一些耗资源的重操作,并且 这些操作负载成本会随集群规模扩大而扩大(这也 是小规模测试时未发现的原因),上线后任务同时执行,导致了控制面瘫痪 (笔者猜测 可能是节点上的监控都需要写入读取配置导致etcd负载过高,致使API Server无法处理请求 ) 。 更不幸的是,负责接受用户推理等工作负载的数据面服务依赖了控制面的DNS服
………………………………