如何在 Kubernetes(k8s) 中配置应用的健康检查（LivenessProbe 和 ReadinessProbe）？

Question

Accepted Answer

在Kubernetes中配置LivenessProbe与ReadinessProbe是保障应用稳定性的核心实践。根据多年经验，建议：1）区分用途——LivenessProbe用于容器自愈，失败触发重启；ReadinessProbe控制流量接入，失败则从Service摘除。2）配置需结合业务逻辑：HTTP探针适用于Web服务，Command探针适合复杂状态检测，TCP探针用于端口存活性验证。3）参数调优是关键：initialDelaySeconds必须大于应用冷启动时间，避免误杀；超时时间(timeoutSeconds)需小于系统中断容忍阈值。4）生产案例：某Java应用因FullGC导致检测超时，将timeoutSeconds从1秒调整为3秒并优化JVM参数后恢复。5）监控探针状态，与Prometheus指标联动，实现异常自愈闭环。

Answer

有没有考虑过结合服务网格（如Istio）来增强应用的流量管理和健康检查能力？

Answer

在Kubernetes中，通过在Pod的容器定义中添加livenessProbe和readinessProbe字段配置健康检查，指定HTTP请求、TCP端口检测或执行命令等方式，并设置检查间隔、超时等参数。

Answer

在k8s里配健康检查主要是用LivenessProbe和ReadinessProbe。简单说：LivenessProbe用来判断容器是不是挂了，如果检查失败k8s会自动重启容器；ReadinessProbe判断容器是否准备好接收流量，失败的话就暂时不转发请求给它。配置就是在yaml里加个字段，比如用httpGet检查某个接口，或者用命令行执行检查脚本。比如：livenessProbe里可以设置initialDelaySeconds等参数，给容器启动留点时间，别一上来就检查。记得端口和路径要写对，不然会一直报错！

Answer

在Kubernetes中配置健康检查是保障应用稳定性的关键实践。以下是LivenessProbe与ReadinessProbe的配置要点及实战经验：

1. 核心配置参数

探测类型：HTTPGet（推荐RESTful轻量级端点）、Exec（自定义脚本）、TCP Socket（端口存活检测）
关键阈值：initialDelaySeconds需大于应用冷启动时间（曾因Java应用启动慢导致误杀，最终设置为60秒），periodSeconds建议5-10秒，failureThreshold根据SLA要求调整（生产环境常设3次重试）
超时控制：timeoutSeconds需大于应用P99响应时间（曾因数据库查询波动触发误判，设置为3秒）

2. 差异化配置策略

LivenessProbe检测范围需包含核心依赖（如数据库连接池状态），但应避免过度敏感（曾因Redis短暂抖动导致频繁重启）
ReadinessProbe严格性应高于LivenessProbe，在流量激增时优先熔断（通过failureThreshold=1实现快速摘除）
有状态服务需配置preStop Hook，防止ReadinessProbe通过后仍有残存请求

3. 实战挑战与解决方案

虚假存活：某NodeJS应用进程存在但事件循环阻塞，通过Exec探针添加curl internal:3000/health双重验证
雪崩效应：ReadinessProbe查询全链路导致级联故障，改为仅检测进程内状态（如线程池水位）
协议适配：gRPC服务需安装grpc_health_probe或实现HTTP转换层
日志干扰：高频健康检查淹没业务日志，需独立配置access_log级别

4. 高级监控手段

通过Prometheus监控probe_duration_seconds指标发现性能劣化
在Grafana绘制探针失败次数与Deployment版本的关联图谱
对ConfigMap修改添加变更审计（曾因参数误调整导致大规模Pod重建）

5. 混沌测试实践

使用kube-monkey注入TCP连接延迟，验证ReadinessProbe熔断有效性
通过NetworkPolicy模拟网络分区，观察LivenessProbe与Pod重建的协调过程
定期强制触发probe失败，测试HPA与Service Endpoints更新的同步机制

如何在 Kubernetes(k8s) 中配置应用的健康检查（LivenessProbe 和 ReadinessProbe）？

热门问答

推荐问答