K8s 1.31：针对 Job 的 Pod 失效策略进阶至 GA

CNCF · 公众号 · · 2024-10-24 09:27

文章预览

作者： Michał Woźniak [1] (Google), Shannon Kularathna [2] (Google) 译者： Michael Yao [3] (DaoCloud) 这篇博文阐述在 Kubernetes 1.31 中进阶至 Stable 的 Pod 失效策略，还介绍如何在你的 Job 中使用此策略。关于 Pod 失效策略当你在 Kubernetes 上运行工作负载时，Pod 可能因各种原因而失效。理想情况下，像 Job 这样的工作负载应该能够忽略瞬时的、可重试的失效，并继续运行直到完成。要允许这些瞬时的失效，Kubernetes Job 需包含 backoffLimit 字段，此字段允许你指定在 Job 执行期间你愿意容忍的 Pod 失效次数。然而，如果你为 backoffLimit 字段设置了一个较大的值，并完全依赖这个字段，你可能会发现，由于在满足 backoffLimit 条件之前 Pod 重启次数太多，导致运营成本发生不必要的增加。在运行大规模的、包含跨数千节点且长时间运行的 Pod 的 Job 时，这个问题尤其严重 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博