《每天5分钟玩转 Kubernetes》8 健康检查

默认的健康检查

每个容器启动时都会执行一个进程,由 Dockerfile 的 cmd 或 entrypoint 指定,如果进程退出时返回码非零,则认为容器发生故障,kubernetes 就会根据 restartPolicy 重启容器。

下面模拟发生故障的场景。

配置文件 healthcheck.yml:

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: healthcheck
  name: healthcheck
spec:
  restartPolicy: OnFailure
  containers:
  - name: healthcheck
    image: busybox
    args:
    - /bin/sh
    - -c
    - sleep 10; exit 1 # 10秒后返回1,模拟故障  

过一会儿查看 pod:

kubectl get pod

NAME                                   READY   STATUS             RESTARTS   AGE
healthcheck                            1/1     Running            2          55s

状态为 Running,但已经重启 2次了。

过一会儿再查看 pod:

kubectl get pod

NAME                                   READY   STATUS             RESTARTS   AGE
healthcheck                            0/1     Error              3          118s

重启了3次,状态变为了 Error

liveness 探测

有的情况虽然是发生了故障,但进程不会退出,例如web服务器返回500错误,但进程没有退出,这种情况也应该重启容器,这就需要 liveness 探测来解决。

liveness 探测让我们自己定义判断容器健康的条件,如果探测失败,就重启容器。

示例

配置文件 liveness.yml

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: liveness
  name: liveness
spec:
  restartPolicy: OnFailure
  containers:
  - name: liveness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 60
    livenessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 10
      periodSeconds: 5

livenessProbe 部分定义:

(1)通过 cat 检查 /tmp/healthy 是否存在,存在为正常,否则故障。
(2)initialDelaySeconds: 10,指定容器启动10秒后开始执行探测。
(3)periodSeconds: 5,每5秒执行一次探测,连续3次失败就重启。

启动:

kubectl apply -f liveness.yml

开始都正常,过35秒后,文件就不存在了。

查看 pod 日志:

...
Events:
  Type     Reason     Age                  From               Message
  ----     ------     ----                 ----               -------
  Normal   Scheduled  2m48s                default-scheduler  Successfully assigned default/liveness to microk8s
  Warning  Unhealthy  37s (x6 over 2m12s)  kubelet, microk8s  Liveness probe failed: cat: can't open '/tmp/healthy': No such file or directory
...

显示了错误信息。

Readiness 探测

liveness 告诉 kubernetes 什么时候重启容器实现自愈,readiness 是告诉 kubernetes 什么时候可以将容器加入到 service 负载均衡池中,对外提供服务。

示例

配置文件 readiness.yml

apiVersion: v1
kind: Pod
metadata:
  labels:
    test: readiness
  name: readiness
spec:
  restartPolicy: OnFailure
  containers:
  - name: readiness
    image: busybox
    args:
    - /bin/sh
    - -c
    - touch /tmp/healthy; sleep 30; rm -rf /tmp/healthy; sleep 600
    readinessProbe:
      exec:
        command:
        - cat
        - /tmp/healthy
      initialDelaySeconds: 10
      periodSeconds: 5

启动:

kubectl apply -f readiness.yml

pod 的状态变化:

(1)刚创建时,不可用
(2)15秒后,第一次探测成功,可用
(3)30秒后,文件被删除,连续3次探测失败,不可用

在 scale up 中的应用

多副本应用中,执行 scale up 时,新副本添加到 service 中,与已有副本一起处理请求,新副本的启动需要一段时间,这段时间如果接收请求的话就会报错,这就可以使用 readiness 探测,当可用时再对外提供服务。

示例:

...
    readinessProbe:
      httpGet:
        scheme: HTTP
        path: /healthy
        port: 8080
      initialDelaySeconds: 10
      periodSeconds: 5
...

探测成功的条件是 http 请求返回码在 200 ~ 400 之间。

http://[container_ip]:8080/healthy 需要自己实现,里面有自己的判断逻辑。

你可能感兴趣的:(《每天5分钟玩转 Kubernetes》8 健康检查)