Kubernetes(k8s)如何利用网络插件排查容器网络故障？

Question

Accepted Answer

作为IT DevOps，排查Kubernetes容器网络故障需结合网络插件（如Calico、Flannel、Cilium等）特性，遵循分层定位原则：

基础验证
- kubectl describe pod检查Pod状态及事件，确认CNI插件是否成功分配IP
- kubectl exec进入容器执行ping/curl测试跨节点/跨命名空间通信
网络插件层
- 查看CNI插件日志（journalctl -u kubelet或插件组件日志）
- 检查插件配置（如Calico的calicoctl get ippool验证IP池分配）
- 核对节点路由表（ip route）与预期网络模型是否一致
策略限制
- 通过kubectl get networkpolicy检查是否存在网络策略阻断流量
- 对Calico等插件使用calicoctl get globalnetworkpolicy查看全局策略
服务发现
- 验证CoreDNS状态及kubectl get endpoints确认服务后端是否注册
- 检查kube-proxy的iptables/nftables规则（iptables-save | grep ）
底层网络
- 使用tcpdump在Pod veth接口/主机网卡抓包分析流量路径
- 测试节点间基础网络（VXLAN/IPSec隧道连通性）

关键工具链：kubectl debug创建临时诊断Pod，nsenter进入容器网络命名空间，结合插件CLI（如calicoctl）验证配置。不同网络插件需参考其特定排查文档。

Answer

Kubernetes 容器网络故障排查可结合网络插件特性分层次排查：

基础检查：确认 Pod 网络命名空间配置（IP、路由、DNS）、节点间防火墙规则及 CNI 配置文件（/etc/cni/net.d）是否存在异常。
插件组件：检查网络插件 DaemonSet（如 Calico-node、Cilium-agent）运行状态及日志，重点关注 ARP 表、VXLAN/IPIP 隧道接口、节点路由表的正确性。
跨节点连通性：通过 tcpdump 抓取节点网卡及 CNI 虚拟接口（如 cali*、vxlan.calico）流量，验证跨节点 TCP 握手及 MTU 匹配情况。
策略追踪：对于 NetworkPolicy 或服务网格场景，使用插件工具链（如 calicoctl 诊断工具）检查策略生效状态及流量丢弃日志。
内核依赖：验证 eBPF（Cilium）或 iptables（Flannel）等底层转发机制是否被意外修改，例如 conntrack 表溢出或内核模块缺失。

Answer

检查网络插件Pod状态及日志，确保CNI配置正确；使用kubectl describe pod及网络诊断工具（如ping、curl）验证容器间连通性与DNS解析。

Answer

Kubernetes网络故障排查的核心在于理解CNI插件实现机制与网络流量路径。以下是我在多年实践中总结的网络插件排查方法论及挑战：

一、分层诊断流程

Pod网络层验证
- 使用kubectl exec进入Pod执行ifconfig确认veth pair分配
- 检查CNI插件日志（/var/log/calico/cni/cni.log）是否存在IPAM分配错误
- 通过nsenter进入容器网络命名空间验证iptables规则
节点网络层分析
- 在节点执行ip route show table all检查路由表
- 使用tcpdump -i cni0抓取CNI桥接设备流量
- 跨节点场景验证VxLAN隧道（flannel.1）或BGP邻居状态（Calico）
服务网络排查
- 检查kube-proxy的iptables/ipvs规则是否生成正确
- 验证kube-dns端点可用性及CoreDNS解析日志
- 通过conntrack -L追踪NAT会话状态

二、典型问题案例库

三、多CNI插件适配挑战

四、高级诊断工具链

五、云原生网络演进思考随着Kubernetes进入生产深水区，网络故障排查正从手动CLI操作转向AIOps智能诊断。我们正试验通过GNN模型学习网络异常模式，实现秒级根因定位。但跨云厂商VPC互通、IPv6双栈实施等场景仍是行业级难题。

Answer

检查网络插件状态：
- 确认网络插件（如Calico、Flannel）的Pod（如calico-node、flanneld）是否全部处于Running状态： kubectl get pods -n kube-system | grep -E 'calico|flannel'
- 查看插件日志： kubectl logs -n kube-system <插件Pod名称>
验证Pod网络配置：
- 检查问题Pod的IP是否分配：kubectl describe pod
- 进入Pod执行网络测试： kubectl exec -it -- ping <目标IP>
检查节点路由规则：
- 在节点执行ip route或route -n，确认目标Pod网段的路由指向正确。
- 跨节点场景验证节点间网络连通性（如VXLAN端口）： telnet <目标节点IP> 8472（Flannel默认端口）
排查网络策略限制：
- 检查NetworkPolicy是否阻断流量： kubectl get networkpolicy --all-namespaces
分析Service/DNS问题：
- 测试Service域名解析： kubectl exec -it -- nslookup
- 检查CoreDNS/Coredns Pod状态及日志。
抓包分析：
- 在源Pod所在节点抓包： tcpdump -i <网卡> host <目标PodIP>
- 在目标Pod对应网卡（如caliXXX）抓包。
防火墙/安全组检查：
- 确认节点间放行Pod网段、Service网段及插件所需端口（如NodePort范围）。