今天看啥  ›  专栏  ›  云原生实验室

一行超长日志引发的 “血案” - Containerd 频繁 OOM 背后的真相

云原生实验室  · 公众号  ·  · 2024-06-24 14:02
    

文章预览

案发现场:混沌初现 2024年6月10日,本应是平静的一天。但从上午 9 点开始,Sealos 公有云的运维监控告警就开始不停地响。北京可用区服务器节点突然出现大量 “not ready” 告警,紧接着,系统自动触发 004 节点重启,让服务暂时恢复了正常。 就在我以为这只是个小插曲的时候,7分钟后,广州可用区服务器也沦陷了!001 节点不得不重启以求自保。事情似乎并没有那么简单。 “发生什么事了?!” 运维同学们迅速登录服务器排查。 原本稳定运行在 30% 左右的内存使用率,在几分钟内飙升到 100%。 “看起来像是有新应用大量占用内存?” 问题排查:真相难明 “难道是底层机器的内存不足以支撑业务的增长?” 抱着姑且一试的态度,我们紧急升级了北京可用区服务器的配置,将内存容量直接翻倍。观察一段时间后,服务基本恢复稳定。“看来还是资源 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览