专栏名称: CNCF
云原生计算基金会(CNCF)致力于培育和维护一个厂商中立的开源生态系统,来推广云原生技术。我们通过将最前沿的模式民主化,让这些创新为大众所用。
今天看啥  ›  专栏  ›  CNCF

K8s 1.31:针对 Job 的 Pod 失效策略进阶至 GA

CNCF  · 公众号  ·  · 2024-10-24 09:27
    

文章预览

作者: Michał Woźniak [1] (Google), Shannon Kularathna [2] (Google) 译者: Michael Yao [3] (DaoCloud) 这篇博文阐述在 Kubernetes 1.31 中进阶至 Stable 的 Pod 失效策略 ,还介绍如何在你的 Job 中使用此策略。 关于 Pod 失效策略 当你在 Kubernetes 上运行工作负载时,Pod 可能因各种原因而失效。理想情况下,像 Job 这样的工作负载应该能够忽略瞬时的、可重试的失效,并继续运行直到完成。 要允许这些瞬时的失效,Kubernetes Job 需包含 backoffLimit 字段, 此字段允许你指定在 Job 执行期间你愿意容忍的 Pod 失效次数。然而, 如果你为 backoffLimit 字段设置了一个较大的值,并完全依赖这个字段, 你可能会发现,由于在满足 backoffLimit 条件之前 Pod 重启次数太多,导致运营成本发生不必要的增加。 在运行大规模的、包含跨数千节点且长时间运行的 Pod 的 Job 时,这个问题尤其严重 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览