文章预览
作者: Michał Woźniak [1] (Google), Shannon Kularathna [2] (Google) 译者: Michael Yao [3] (DaoCloud) 这篇博文阐述在 Kubernetes 1.31 中进阶至 Stable 的 Pod 失效策略 ,还介绍如何在你的 Job 中使用此策略。 关于 Pod 失效策略 当你在 Kubernetes 上运行工作负载时,Pod 可能因各种原因而失效。理想情况下,像 Job 这样的工作负载应该能够忽略瞬时的、可重试的失效,并继续运行直到完成。 要允许这些瞬时的失效,Kubernetes Job 需包含 backoffLimit 字段,
此字段允许你指定在 Job 执行期间你愿意容忍的 Pod 失效次数。然而,
如果你为 backoffLimit 字段设置了一个较大的值,并完全依赖这个字段,
你可能会发现,由于在满足 backoffLimit 条件之前 Pod 重启次数太多,导致运营成本发生不必要的增加。 在运行大规模的、包含跨数千节点且长时间运行的 Pod 的 Job 时,这个问题尤其严重
………………………………