vmstate 命令

时间:2022-06-28 静言善思人气:0

vmstat 是一个查看虚拟内存（Virtual Memory）使用状况的工具，但是怎样通过 vmstat 来发现系统中的瓶颈呢？

1。使用vmstat

使用前我们先看下命令介绍及参数定义

Usage:
 vmstat [options] [delay [count]]
Options:
 -a, --active           active/inactive memory
 -f, --forks            number of forks since boot
 -m, --slabs            slabinfo
 -n, --one-header       do not redisplay header
 -s, --stats            event counter statistics
 -d, --disk             disk statistics
 -D, --disk-sum         summarize disk statistics
 -p, --partition <dev>  partition specific statistics
 -S, --unit <char>      define display unit
 -w, --wide             wide output
 -t, --timestamp        show timestamp
 -h, --help     display this help and exit
 -V, --version  output version information and exit
For more details see vmstat(8).

中文翻译

-a：显示活跃和非活跃内存
-f：显示从系统启动至今的 fork 数量。
-m：显示 slabinfo
-n：只在开始时显示一次各字段名称。
-s：显示内存相关统计信息及多种系统活动数量。
delay：刷新时间间隔。如果不指定，只显示一条结果。
count：刷新次数。如果不指定刷新次数，但指定了刷新时间间隔，这时刷新次数为无穷。
-d：显示磁盘相关统计信息。
-p：显示指定磁盘分区统计信息
-S：使用指定单位显示。参数有 k 、K 、m 、M ，分别代表 1000、1024、1000000、1048576 字节（byte）。
默认单位为 K（1024 bytes）
-V：显示 vmstat 版本信息。

2。实战

例子：每 2 秒输出一条结果

[root@k8s-master01 ~]# vmstat 2
procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
r b swpd free buff cache si so bi bo in cs us sy id wa st
4 0 0 485092 0 1249236 0 0 3 19 47 31 1 1 98 0 0
0 0 0 485364 0 1249364 0 0 0 34 2885 4952 1 3 97 0 0
0 0 0 485472 0 1249368 0 0 0 34 2107 3561 1 1 98 0 0
0 0 0 485316 0 1249368 0 0 0 60 1914 3326 1 1 98 0 0

结果如图，对上面输出结果含义解释：

Procs（进程）：
r: 运行的和等待(CPU 时间片)运行的进程数，这个值也可以判断是否需要增加 CPU(长期大于 1)
b: 等待 IO 的进程数量，处于不可中断状态的进程数，常见的情况是由 IO 引起的
Memory（内存）：
swpd: 使用虚拟内存大小，切换到交换内存上的内存(默认以 KB 为单位)
如果 swpd 的值不为 0，或者还比较大，比如超过 100M 了，但是 si, so 的值长期为 0，这种情况我们可以不用担心，不会影响系统性能。
free: 空闲的物理内存
buff: 用作缓冲的内存大小
cache: 用作缓存的内存大小，文件系统的 cache，如果 cache 的值大的时候，说明 cache 住的文件数多，如果频繁访问到的文件都能被 cache 住，那么磁盘的读 IO bi 会非常小
Swap：
si: 每秒从交换区写到内存的大小，交换内存使用，由磁盘调入内存
so: 每秒写入交换区的内存大小，交换内存使用，由内存调入磁盘
内存够用的时候，这 2 个值都是 0，如果这 2 个值长期大于 0 时，系统性能会受到影响。磁盘 IO 和CPU 资源都会被消耗

IO：
bi: 每秒读取的块数，从块设备读入的数据总量(读磁盘) (KB/s)
bo: 每秒写入的块数，写入到块设备的数据总理(写磁盘) (KB/s)
随机磁盘读写的时候，这 2 个值越大（如超出 1M），能看到 CPU 在 IO 等待的值也会越大
system：
in: 每秒中断数，包括时钟中断。
cs: 每秒上下文切换数。
上面这 2 个值越大，会看到由内核消耗的 CPU 时间会越多
CPU（以百分比表示）：

us: 用户进程消耗的 CPU 时间百分比，us 的值比较高时，说明用户进程消耗的 CPU 时间多，但是如果长期超过 50% 的使用，那么我们就该考虑优化程序算法或者进行加速了
sy: 内核进程消耗的 CPU 时间百分比，sy 的值高时，说明系统内核消耗的 CPU 资源多，这并不是良性的表现，我们应该检查原因。
id: CPU 处在空闲状态时间百分比(包括 IO 等待时间)
wa: IO 等待消耗的 CPU 时间百分比，wa 的值高时，说明 IO 等待比较严重

3。问题处理中，如何运用？

现象：
1。)如果在processes中运行的序列(process r)是连续的大于在系统中的CPU的个数表示系统现在运行比较慢,有多数的进程等待 CPU。
2。)如果 r 的输出数大于系统中可用 CPU 个数的 4 倍的话,则系统面临着 CPU 短缺的问题,或者是 CPU 的速率过低,系统中有多数的进程在等待 CPU,造成系统中进程运行过慢。
3。)如果空闲时间(cpu id)持续为 0 并且系统时间(cpu sy)是用户时间的两倍(cpu us)系统则面临着 CPU 资源的短缺。

办法建议：

1。调节 applications & servers 使得对内存和 cache 的使用更加有效。例如：先调整应用程序对 CPU 的占用情况。使得应用程序能够更有效的使用 CPU、联系DBA查看是否有SQL语句堵塞。
2。增加系统的内存或者CPU。

实战例子：

procs -----------memory---------- ---swap-- -----io---- -system-- ------cpu-----
 r  b   swpd   free   buff  cache   si   so    bi    bo   in   cs us sy id wa st
 7  0      0 475416      0 1251908    0    0     0   441 1961 3307  0  1 98  0  0
 1  0      0 475372      0 1251908    0    0     0    32 1785 3083  1  1 98  0  0
 0  0      0 475744      0 1251916    0    0     0    34 1891 3259  0  1 98  0  0
 2  0      0 475744      0 1251916    0    0     0    18 1935 3381  1  1 98  0  0
 0  0      0 475512      0 1251920    0    0     0    29 2062 3533  2  1 97  0  0
 0  0      0 475884      0 1251920    0    0     0    22 1988 3410  0  1 99  0  0
 0  0      0 475760      0 1251924    0    0     0    22 1757 3040  1  1 98  0  0
 0  0      0 475340      0 1251924    0    0     0    28 2001 3415  0  2 98  0  0
 0  0      0 475636      0 1251924    0    0     0    16 1941 3341  1  1 98  0  0
 0  0      0 475264      0 1251928    0    0     0    29 1986 3408  1  1 98  0  0
 0  0      0 475264      0 1251928    0    0     0    34 2112 3490  1  1 98  0  0
 0  0      0 469308      0 1252084    0    0     0   487 2973 5094  2  3 96  0  0
 0  0      0 471872      0 1252004    0    0     0   212 3007 5139  1  3 96  0  0
 0  0      0 472368      0 1251972    0    0     0   156 2331 3936  1  2 97  0  0
 0  0      0 472632      0 1251976    0    0     0    35 2119 3705  1  2 97  0  0
 0  0      0 472236      0 1251976    0    0     0   425 2018 3372  0  1 99  0  0
 0  0      0 472384      0 1251980    0    0     0    17 1807 3101  1  1 98  0  0

根据观察值,我们可以得到以下结论：
1。有大量的中断(in) 和较多的上下文切换(cs)。这意味着存在多个的进程在产生对硬件设备的请求。
2。进一步显示某单个应用,user time(us)利用率低，说明应用用户进程使用较少。
3。cpu id 经常保持再98%附近，说明当前系统基本上无负载压力。

加载全部内容

vmstate 命令

1。 使用vmstat

2。实战

3。 问题处理中，如何运用？

1。使用vmstat

3。问题处理中，如何运用？