[toc]
pod健康检查
探针分类
Liveness 存活探针
kubelet 使用存活探针来确定什么时候要重启容器。 例如,存活探针可以探测到应用死锁(应用程序在运行,但是无法继续执行后面的步骤)情况。 重启这种状态下的容器有助于提高应用的可用性,即使其中存在缺陷。
Readiness 可读探针
kubelet 使用就绪探针可以知道容器何时准备好接受请求流量,当一个 Pod 内的所有容器都就绪时,才能认为该 Pod 就绪。 这种信号的一个用途就是控制哪个 Pod 作为 Service 的后端。 若 Pod 尚未就绪,会被从 Service 的负载均衡器中剔 除。
Startup 启动探针
kubelet 使用启动探针来了解应用容器何时启动。 如果配置了这类探针,你就可以控制容器在启动成功后再进行存活性和就绪态检查, 确保这些存活、就绪探针不会影响应用的启动。 启动探针可以用于对慢启动容器进行存活性检测,避免它们在启动运行之前就被杀掉。
探针检查机制
使用探针来检查容器有四种不同的方法。 每个探针都必须准确定义为这四种机制中的一种:
exec
在容器内执行指定命令。如果命令退出时返回码为 0 则认为诊断成功。
grpc
使用 gRPC 执行一个远程过程调用。 目标应该实现 gRPC健康检查。 如果响应的状态是 "SERVING",则认为诊断成功。 gRPC 探针是一个 Alpha 特性,只有在你启用了 "GRPCContainerProbe" 特性门控时才能使用。
httpGet
对容器的 IP 地址上指定端口和路径执行 HTTP GET
请求。如果响应的状态码大于等于 200 且小于 400,则诊断被认为是成功的。
tcpSocket
对容器的 IP 地址上的指定端口执行 TCP 检查。如果端口打开,则诊断被认为是成功的。 如果远程系统(容器)在打开连接后立即将其关闭,这算作是健康的。
探针配置方式
定义存活命令
第一种类型的存活探测方式是执行一段命令
许多 长时间运行的应用最终会进入损坏状态,除非重新启动,否则无法被恢复。 Kubernetes 提供了存活探针来发现并处理这种情况。
编辑yaml文件
cat > exec-liveness.yaml << EOF
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness-exec
spec:
containers:
- name: liveness
#image: registry.k8s.io/busybox
image: mirrorgooglecontainers/busybox
args:
- /bin/sh
- -c
- touch /tmp/healthy; sleep 30; rm -f /tmp/healthy; sleep 600
livenessProbe:
exec:
command:
- cat
- /tmp/healthy
initialDelaySeconds: 5 # 执行第一次探测前等待5秒
periodSeconds: 5 # 每5秒执行一次存活探测
EOF
在这个配置文件中,可以看到 Pod 中只有一个 Container
。 periodSeconds
字段指定了 kubelet 应该每 5 秒执行一次存活探测。 initialDelaySeconds
字段告诉 kubelet 在执行第一次探测前应该等待 5 秒。 kubelet 在容器内执行命令 cat /tmp/healthy
来进行探测。 如果命令执行成功并且返回值为 0,kubelet 就会认为这 个容器是健康存活的。 如果这个命令返回非 0 值,kubelet 会杀死这个容器并重新启动它。
当容器启动时,执行如下的命令:
/bin/sh -c "touch /tmp/healthy; sleep 30; rm -f /tmp/healthy; sleep 600"
这个容器生命的前 30 秒,/tmp/healthy
文件是存在的。 所以在这最开始的 30 秒内,执行命令 cat /tmp/healthy
会返回成功代码。 30 秒之后,执行命令 cat /tmp/healthy
就会返回失败代码。
创建pod
kubectl apply -f exec-liveness.yaml
输出结果表明还没有存活探针失败:
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 18s default-scheduler Successfully assigned test/liveness-exec to k8s-node02
Normal Pulling 17s kubelet Pulling image "mirrorgooglecontainers/busybox"
Normal Pulled 2s kubelet Successfully pulled image "mirrorgooglecontainers/busybox" in 15.315916502s
Normal Created 2s kubelet Created container liveness
Normal Started 2s kubelet Started container liveness
在输出结果的最下面,有信息显示存活探针失败了,这个失败的容器被杀死并且被重建了。
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 85s default-scheduler Successfully assigned test/liveness-exec to k8s-node02
Normal Pulling 84s kubelet Pulling image "mirrorgooglecontainers/busybox"
Normal Pulled 69s kubelet Successfully pulled image "mirrorgooglecontainers/busybox" in 15.315916502s
Normal Created 69s kubelet Created container liveness
Normal Started 69s kubelet Started container liveness
Warning Unhealthy 25s (x3 over 35s) kubelet Liveness probe failed: cat: can't open '/tmp/healthy': No such file or directory
Normal Killing 25s kubelet Container liveness failed liveness probe, will be restarted
再等 30 秒,确认这个容器被重启了,输出结果显示 RESTARTS
的值增加了 1。 请注意,一旦失败的容器恢复为运行状态,RESTARTS
计数器就会增加 1:
$ kubectl get pod liveness-exec
NAME READY STATUS RESTARTS AGE
liveness-exec 1/1 Running 1 (26s ago) 116s
最后pod的状态会变为 CrashLoopBackOff
$ kubectl get pod liveness-exec
NAME READY STATUS RESTARTS AGE
liveness-exec 0/1 CrashLoopBackOff 9 (3m34s ago) 24m
定义一个存活态 HTTP 请求接口
第二种类型的存活探测方式是使用 HTTP GET 请求
编辑yaml文件
cat > http-liveness.yaml << EOF
apiVersion: v1
kind: Pod
metadata:
labels:
test: liveness
name: liveness-http
spec:
containers:
- name: liveness
#image: registry.k8s.io/liveness
image: mirrorgooglecontainers/liveness
args:
- /server
livenessProbe:
httpGet:
path: /healthz
port: 8080
httpHeaders:
- name: Custom-Header
value: Awesome
initialDelaySeconds: 3 # 执行第一次探测前等待3秒
periodSeconds: 3 # 每3秒执行一次存活探测
EOF
在这个配置文件中,你可以看到 Pod 也只有一个容器。 periodSeconds
字段指定了 kubelet 每隔 3 秒执行一次存活探测。 initialDelaySeconds
字段告诉 kubelet 在执行第一次探测前应该等待 3 秒。 kubelet 会向容器内运行的服务(服务在监听 8080 端口)发送一个 HTTP GET 请求来执行探测。 如果服务器上 /healthz
路径下的处理程序返回成功代码,则 kubelet 认为容器 是健康存活的。 如果处理程序返回失败代码,则 kubelet 会杀死这个容器并将其重启。
返回大于或等于 200 并且小于 400 的任何代码都标示成功,其它返回代码都标示失败。
你可以访问 server.go。 阅读服务的源码。 容器存活期间的最开始 10 秒中,/healthz
处理程序返回 200 的状态码。 之后处理程序返回 500 的状态码。
http.HandleFunc("/healthz", func(w http.ResponseWriter, r *http.Request) {
duration := time.Now().Sub(started)
if duration.Seconds() > 10 {
w.WriteHeader(500)
w.Write([]byte(fmt.Sprintf("error: %v", duration.Seconds())))
} else {
w.WriteHeader(200)
w.Write([]byte("ok"))
}
})
kubelet 在容器启动之后 3 秒开始执行健康检测。所以前几次健康检查都是成功的。 但是 10 秒之后,健康检查会失败,并且 kubelet 会杀死容器再重新启动容器。
创建pod
kubectl apply -f http-liveness.yaml
10 秒之后,通过查看 Pod 事件来确认存活探针已经失败,并且容器被重新启动了。
Events:
Type Reason Age From Message
---- ------ ---- ---- -------
Normal Scheduled 31s default-scheduler Successfully assigned test/liveness-http to k8s-node02
Normal Pulling 30s kubelet Pulling image "mirrorgooglecontainers/liveness"
Normal Pulled 13s kubelet Successfully pulled image "mirrorgooglecontainers/liveness" in 17.100600651s
Normal Created 13s kubelet Created container liveness
Normal Started 13s kubelet Started container liveness
Warning Unhealthy 1s kubelet Liveness probe failed: HTTP probe failed with statuscode: 500
在 1.13 之前(包括 1.13)的版本中,如果在 Pod 运行的节点上设置了环境变量 http_proxy
(或者 HTTP_PROXY
),HTTP 的存活探测会使用这个代理。 在 1.13 之后的版本中,设置本地的 HTTP 代理环境变量不会影响 HTTP 的存活探测。
最后pod的状态会变为 CrashLoopBackOff
$ kubectl get pod liveness-http
NAME READY STATUS RESTARTS AGE
liveness-http 0/1 CrashLoopBackOff 5 (59s ago) 5m2s
定义 TCP 的存活探测
第三种类型的存活探测是使用 TCP 套接字。 使用这种配置时,kubelet 会尝试在指定端口和容器建立套接字链接。 如果能建立连接,这个容器就被看作是健康的,如果不能则这个容器就被看作是有问题的。
编辑yaml文件
cat > tcp-liveness-readiness.yaml << EOF
apiVersion: v1
kind: Pod
metadata:
name: goproxy
labels:
app: goproxy
spec:
containers:
- name: goproxy
#image: registry.k8s.io/goproxy:0.1
image: mirrorgooglecontainers/goproxy:0.1
ports:
- containerPort: 8080
readinessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 5
periodSeconds: 10
livenessProbe:
tcpSocket:
port: 8080
initialDelaySeconds: 15 # 执行第一次探测前等待15秒
periodSeconds: 20 # 每20秒执行一次存活探测
EOF
如你所见,TCP 检测的配置和 HTTP 检测非常相似。 下面这个例子同时使用就绪和存活探针。kubelet 会在容器启动 5 秒后发送第一个就绪探针。 探针会尝试连接 goproxy
容器的 8080 端口。 如果探测成功,这个 Pod 会被标记为就绪状态,kubelet 将继续每隔 10 秒运行一次探测。
除了就绪探针,这个配置包括了一个存活探针。 kubelet 会在容器启动 15 秒后进行第一次存活探测。 与就绪探针类似,存活探针会尝试连接 goproxy
容器的 8080 端口。 如果存活探测失败,容器会被重新启动。
创建pod
kubectl apply -f tcp-liveness-readiness.yaml
定义 gRPC 存活探针
特性状态: Kubernetes v1.24 [beta]
如果你的应用实现了 gRPC 健康检查协议, kubelet 可以配置为使用该协议来执行应用存活性检查。 你必须启用 GRPCContainerProbe
特性门控 才能配置依赖于 gRPC 的检查机制。
编辑yaml文件
cat > grpc-liveness.yaml << EOF
apiVersion: v1
kind: Pod
metadata:
name: etcd-with-grpc
spec:
containers:
- name: etcd
#image: registry.k8s.io/etcd:3.5.1-0
image: mirrorgooglecontainers/etcd:3.5.1-0
command: [ "/usr/local/bin/etcd", "--data-dir", "/var/lib/etcd", "--listen-client-urls", "http://0.0.0.0:2379", "--advertise-client-urls", "http://127.0.0.1:2379", "--log-level", "debug"]
ports:
- containerPort: 2379
livenessProbe:
grpc:
port: 2379
initialDelaySeconds: 10
EOF
要使用 gRPC 探针,必须配置 port
属性。如果健康状态端点配置在非默认服务之上, 你还必须设置 service
属性。
:::tip说明
与 HTTP 和 TCP 探针不同,gRPC 探测不能使用命名端口或定制主机。
配置问题( 例如:错误的 port
和 service
、未实现健康检查协议) 都被认作是探测失败,这一点与 HTTP 和 TCP 探针类似。
:::
创建pod
kubectl apply -f grpc-liveness.yaml
15 秒钟之后,查看 Pod 事件确认存活性检查并未失败:
kubectl describe pod etcd-with-grpc
在 Kubernetes 1.23 之前,gRPC 健康探测通常使用 grpc-health-probe 来实现,如博客 Health checking gRPC servers on Kubernetes(对 Kubernetes 上的 gRPC 服务器执行健康检查)所描述。 内置的 gRPC 探针行为与 grpc-health-probe
所实现的行为类似。 从 grpc-health-probe
迁移到内置探针时,请注意以下差异:
- 内置探针运行时针对的是 Pod 的 IP 地址,不像
grpc-health-probe
那样通常针对127.0.0.1
执行探测; 请一定配置你的 gRPC 端点使之监听于 Pod 的 IP 地址之上。 - 内置探针不支持任何身份认证参数(例如
-tls
)。 - 对于内置的探针而言,不存在错误代码。所有错误都被视作探测失败。
- 如果
ExecProbeTimeout
特性门控被设置为false
,则grpc-health-probe
不会考虑timeoutSeconds
设置状态(默认值为 1s), 而内置探针则会在超时时返回失败。
使用命名端口
对于 HTTP 和 TCP 存活检测可以使用命名的 port
(gRPC 探针不支持使用命名端口)。
例如:
ports:
- name: liveness-port
containerPort: 8080
hostPort: 8080
livenessProbe:
httpGet:
path: /healthz
port: liveness-port