专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
今天看啥  ›  专栏  ›  AI工程化

OpenAI 服务故障CaseStudy来了!原来大厂也犯这样的错

AI工程化  · 公众号  ·  · 2024-12-15 07:00
    

文章预览

在笔者前文《 什么样的魔力让Gemini 2.0 爆冷抢了OpenAI风头,开辟LLM应用2025新方向 》 提到,OpenAI在直播第5日(美西12/11 15:16至19:38 )发生了宕机,持续长达4个多小时,当时有很多人猜测可能是与接入苹果生态带来的压力所致。 美西时间12日,OpenAI给出了官方解释,他们犯了所有互联网公司都曾犯过的错。原来这次故障是因为升级导致的。他们本意是想提升集群的可观测性,因此,需要安装监控服务,然而这些新服务会有一些耗资源的重操作,并且 这些操作负载成本会随集群规模扩大而扩大(这也 是小规模测试时未发现的原因),上线后任务同时执行,导致了控制面瘫痪 (笔者猜测 可能是节点上的监控都需要写入读取配置导致etcd负载过高,致使API Server无法处理请求 ) 。 更不幸的是,负责接受用户推理等工作负载的数据面服务依赖了控制面的DNS服 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览