(k8s)Kubernetes 中必备的 10 个告警处置方法

本文翻译自:https://sematext.com/blog/top-10-must-have-alerts-for-kubernetes/

(k8s)Kubernetes 中必备的 10 个告警处置方法_第1张图片

运行 Kubernetes 集群,显然不止是启动,还需要持续监控,以确保 Kubernetes 中的服务能正常运行。

不过,您不想整天盯着一堆 Kubernetes 仪表板(即便仪表板再多么美观)。您希望使用适当的警报来设置 Kubernetes 警报,对吗?

借助 k8s 警报,您将快速发现 Kubernetes 集群中的问题,并希望也能快速修复它们。那么问题来了,最应该关注的警报有哪些?

1. 过高的 CPU 使用率

为什么这很重要

当 Kubernetes Pod 超出其 CPU 限制时,将触发此警报,表明可能存在资源争用或资源分配效率低下。如果 CPU 限制不断达到,则可能导致应用程序响应时间变慢和潜在的服务中断。简而言之,你不希望看到这种情况发生。

行动

调查受影响的 Pod,并考虑调整资源限制或优化应用程序。

使用以下命令检查受影响 Pod 的 CPU 使用率:

kubectl top pod  -n 

要调整 pod 的资源限制,请编辑其 YAML 配置文件:

kubectl edit pod  -n 

在 YAML 文件中,修改“resources”部分以调整 CPU 限制:

resources:
  limits:
    cpu: 

替换为所需的 CPU 限制值。

2. 已达到 CPU 使用限制

为什么这很重要

与上一个警报类似,当 Pod 达到其 CPU 限制时,此警报会发出通知。

行动

分析工作负载的资源需求和扩展要求,以防止性能下降。

运行以下命令以获取与受影响的 Pod 关联的工作负载的 CPU 使用率指标:

kubectl top pod --sel

你可能感兴趣的:(kubernets,虚拟化,Docker,kubernetes,容器,云原生)