专栏名称: 阿里云开发者
阿里巴巴官方技术号,关于阿里的技术创新均将呈现于此
今天看啥  ›  专栏  ›  阿里云开发者

K8S异常诊断之俺的内存呢

阿里云开发者  · 公众号  · 科技公司  · 2025-02-18 18:00
    

文章预览

阿里妹导读 本文讲述作者如何解决客户集群中出现的OOM(Out of Memory)和Pod驱逐问题。文章不仅详细记录了问题的发生背景、现象特征,还深入探讨了排查过程中的关键步骤和技术细节。 人在工位坐,锅又双叒叕从天上来: 某日下午, 正当我在工位勤恳工作时,我沉寂已久的电话铃声突然响起,刚接起来就听见对面哭喊着:“牧原老哥,救救我啊!”。 原来某TAM同学拜访客户,恰逢客户集群多个节点和业务出现OOM以及驱逐pod的情况,需要我们快速救援,那咱必须救兄弟姐妹于金木水火土之中啊 问题特征有几个....: 多集群,多业务,多节点出现驱逐 不同的业务pod的内存都相当大,独占节点(节点16c32G ,pod limit 15c 31G-主业务container) 既有podOOM又有节点内存不足的驱逐 "reason":"Evicted","message":"The node was low on resource: memory 调小kubelet保留内存(调整前 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览