如何在 KVM 中监控虚拟机的性能和资源使用情况？

Question

Accepted Answer

使用virt-top工具：
- 安装：apt-get install virt-top（Debian/Ubuntu）或yum install virt-top（RHEL/CentOS）
- 运行：virt-top实时查看所有虚拟机的CPU、内存、磁盘I/O使用情况。
通过virsh命令：
- 查看资源统计：virsh domstats 显示指定虚拟机的详细资源数据。
- 列出运行中虚拟机：virsh list
宿主机监控工具：
- 使用top/htop查看宿主机整体资源负载，定位虚拟机进程（通常为qemu-system-*）。
- sar（sysstat包）记录历史CPU/内存/磁盘数据，分析趋势。
虚拟机内部监控：
- 在虚拟机内安装htop、nmon或collectd，直接监控其内部进程及资源分配。
网络流量监控：
- 使用iftop或nload在宿主机上观察虚拟机的网络接口（如vnet*）流量。
图形化工具：
- 使用virt-manager界面查看实时CPU/内存使用率及性能图表。
高级方案：
- 部署Libvirt+Prometheus+Grafana，通过libvirt-exporter采集指标并可视化。

Answer

在KVM环境中监控虚拟机性能及资源使用，需结合工具与策略：

工具层面：
- 使用virsh domstats获取实时资源数据（CPU、内存、磁盘、网络）。
- 通过virt-top或virt-manager图形界面直观查看性能指标。
- 集成Prometheus+Grafana实现可视化监控，或采用Zabbix/Nagios进行告警与历史分析。
宿主机监控：
- 监控宿主机整体资源（如top、htop、nmon），避免资源争抢影响虚拟机。
虚拟机内部：
- 安装Agent（如Telegaf+InfluxDB）采集Guest OS层指标（进程级CPU/内存）。
高级分析：
- 利用Libvirt API开发定制监控脚本，结合日志（/var/log/libvirt/）排查异常。
- 对磁盘I/O使用iostat，网络流量用iftop定位瓶颈。
优化联动：
- 根据监控结果调整vCPU/内存分配、启用virtio-balloon动态内存、配置NUMA亲和性。关键点：区分Hypervisor层与Guest OS层数据，避免单点监控盲区，同时设置基线告警阈值（如CPU持续>90%触发告警）。

Answer

在KVM环境中监控虚拟机性能与资源使用，需结合工具链与自定义策略。我的实践经验如下：

基础监控层：
- 通过libvirt API实时采集CPU利用率（virsh cpu-stats）、内存占用量（virsh dommemstat）及块设备I/O（virsh domblkstat）
- 使用virt-top观察实时资源消耗，需注意其依赖qemu-guest-agent获取准确内存数据，曾遇到因未安装agent导致RSS内存统计偏差40%的案例
深度性能剖析：
- 对CPU调度问题，采用perf kvm --host --guest记录VM-Exit事件，某生产环境通过分析发现因EPT缺页异常过多导致性能下降15%
- 使用BPF工具动态追踪virtio-net/virtio-blk后端驱动，曾定位到因多队列分配不均导致的网络吞吐瓶颈
资源隔离验证：
- 在NUMA架构中，使用numastat验证vCPU-pinning有效性，某次优化中将跨NUMA访问从35%降至3%
- 通过cgclassify将QEMU进程绑定至cgroup，限制突发性IO导致宿主Ceph集群延迟飙升的情况
可视化监控体系：
- Prometheus+Granfana方案中，需自行开发libvirt_exporter采集嵌套指标
- 使用ceph-dash监控底层存储性能时，发现因LibRBD缓存导致的虚拟机磁盘延迟假象

典型挑战：

性能干扰：高精度监控（如1秒间隔）导致宿主CPU软中断增加，需在监控粒度和开销间平衡
网络虚拟化盲区：OVS流表统计与虚拟机实际流量存在偏差，曾采用DPDK vhost-user模式+IPFIX解决
内存气球难题：动态内存调整导致KSM合并率下降，需重新计算ksmtuned参数
热迁移监控：迁移过程中带宽突发引发QoS策略失效，最终通过TC流量整形解决

推荐采用分层监控策略：宿主机层（节点资源）、虚拟化层（QEMU进程）、客户机层（guest agent）三维度交叉验证，配合基于历史数据的异常检测算法（如EWMA），可提前15-30分钟预测资源瓶颈。

Answer

在KVM里监控虚拟机性能，可以试试这几个方法：1. 用virt-manager图形界面直接看CPU、内存占用；2. 命令行跑virt-top或者virsh dominfo查详细资源数据；3. 装个普罗米修斯+grafana搞长期监控图表；4. 用nmon或者sar这类系统工具看宿主机的整体负载。简单粗暴的话直接top命令也能瞄个大概～

Answer

宿主机监控工具
- 使用 top/htop 监控宿主机整体CPU、内存负载。
- 通过 vmstat 1 查看系统进程、内存、I/O实时状态。
- 使用 iostat -dx 1 分析磁盘I/O性能，定位虚拟机存储瓶颈。
Libvirt原生命令
- virsh dominfo 查看虚拟机基础信息（CPU/内存分配）。
- virsh domstats 获取实时资源统计（CPU使用率、内存消耗、磁盘/网络流量）。
- virsh list --all 确认虚拟机运行状态。
虚拟机内部监控
- 安装 QEMU Guest Agent：
  - 宿主机：apt install qemu-guest-agent（Debian系）或 yum install qemu-guest-agent（RHEL系）。
  - 虚拟机内：配置并启动服务，通过 virsh edit 添加设备。
- 使用 virsh dommemstat 获取Guest Agent提供的精确内存数据。
专用监控工具
- virt-top：实时显示所有虚拟机CPU、内存使用排行（需安装virt-top包）。
- virt-manager 图形界面：查看资源曲线图，支持历史数据回溯。
集成外部系统
- Prometheus+Grafana：部署node_exporter+libvirt_exporter采集数据，配置仪表盘。
- Zabbix：使用libvirt模板自动发现虚拟机并监控关键指标。

注意：若虚拟机出现性能瓶颈，需同时对比宿主机资源使用（如宿主机CPU steal time过高可能表示物理资源超售）。

如何在 KVM 中监控虚拟机的性能和资源使用情况？

热门问答

推荐问答