来自 技术 2019-03-16 00:00 的文章

IO实时监控命令iostat详解

iostat用于输出CPU和磁盘I/O相关的统计信息

命令格式

iostat[-c][-d][-h][-N][-k|-m][-t][-V][-x][-z][device[...]|ALL][-p[device[,...]|ALL]][interval[count]]

iostat各个参数的说明

-c仅显示CPU统计信息.与-d选项互斥.-d仅显示磁盘统计信息.与-c选项互斥.-k以K为单位显示每秒的磁盘请求数,默认单位块.-pdevice|ALL与-x选项互斥,用于显示块设备及系统分区的统计信息.也可以在-p后指定一个设备名,如:#iostat-phda或显示所有设备#iostat-pALL-t在输出数据时,打印搜集数据的时间.-V打印版本号和帮助信息.-x输出扩展信息.

iostat的简单使用

[sdk_test@ssdk1server]$iostatLinux2.6.32-431.11.15.el6.ucloud.x86_64(ssdk1)10/14/2016_x86_64_(4CPU)avg-cpu:%user%nice%system%iowait%steal%idle0.440.000.260.010.0199.29Device:tpsBlk_read/sBlk_wrtn/sBlk_readBlk_wrtnvda0.660.096.751404732105885456vdb1.4212.4755.86195619082876552296

解释一下各个输出项的含义:

avg-%%%%iowait:CPU等待硬件I/%///

入门使用

iostat-d-k210

参数 -d 表示,显示设备(磁盘)使用状态;-k某些使用block为单位的列强制使用Kilobytes为单位;2表示,数据显示每隔2秒刷新一次。10表示一共刷新10次.

[sdk_test@ssdk1server]$iostat-d-k2Linux2.6.32-431.11.15.el6.ucloud.x86_64(ssdk1)10/14/2016_x86_64_(4CPU)Device:tpskB_read/skB_wrtn/skB_readkB_wrtnvda0.660.043.3770236652944164vdb1.426.2327.9397809545438300324Device:tpskB_read/skB_wrtn/skB_readkB_wrtnvda2.000.008.00016vdb2.000.0024.00048Device:tpskB_read/skB_wrtn/skB_readkB_wrtnvda0.000.000.0000vdb0.000.000.0000Device:tpskB_read/skB_wrtn/skB_readkB_wrtnvda0.500.002.0004vdb0.000.000.0000Device:tpskB_read/skB_wrtn/skB_readkB_wrtnvda0.000.000.0000vdb2.500.0092.000184

输出项的意义:

tps:该设备每秒的传输次数(Indicatethenumberoftransferspersecondthatwereissuedtothedevice.)。"一次传输"意思是"一次I/O请求"。多个逻辑请求可能会被合并为"一次I/O请求"。"一次传输"请求的大小是未知的。kB_read/s:每秒从设备(driveexpressed)读取的数据量;kB_wrtn/s:每秒向设备(driveexpressed)写入的数据量;kB_read:读取的总数据量;kB_wrtn:写入的总数量数据量;这些单位都为Kilobytes。

指定监控的设备名称为vda,该命令的输出结果和上面命令完全相同

默认监控所有的硬盘设备,现在指定只监控vda。

iostat-dvda2

扩展使用-X参数

iostat还有一个比较常用的选项-x,该选项将用于显示和io相关的扩展数据。

[sdk_test@ssdk1server]$iostat-d-x-k110Linux2.6.32-431.11.15.el6.ucloud.x86_64(ssdk1)10/14/2016_x86_64_(4CPU)Device:rrqm/swrqm/sr/sw/srkB/swkB/savgrq-szavgqu-szawaitsvctm%utilvda0.000.190.000.650.043.3710.410.000.780.410.03vdb0.005.850.291.136.2327.9348.060.001.440.410.06Device:rrqm/swrqm/sr/sw/srkB/swkB/savgrq-szavgqu-szawaitsvctm%utilvda0.000.000.000.000.000.000.000.000.000.000.00vdb0.000.000.000.000.000.000.000.000.000.000.00Device:rrqm/swrqm/sr/sw/srkB/swkB/savgrq-szavgqu-szawaitsvctm%utilvda0.000.000.000.000.000.000.000.000.000.000.00vdb0.000.000.000.000.000.000.000.000.000.000.00

输出项的意义:

rrqm/s:每秒这个设备相关的读取请求有多少被Merge了(当系统调用需要读取数据的时候,VFS将请求发到各个FS,如果FS发现不同的读取请求读取的是相同Block的数据,FS会将这个请求合并Merge);wrqm/s:每秒这个设备相关的写入请求有多少被Merge了。rsec/s:每秒读取的扇区数;wsec/s:每秒写入的扇区数。rKB/s:Thenumberofreadrequeststhatwereissuedtothedevicepersecond;wKB/s:Thenumberofwriterequeststhatwereissuedtothedevicepersecond;avgrq-sz平均请求扇区的大小avgqu-sz是平均请求队列的长度。毫无疑问,队列长度越短越好。await:每一个IO请求的处理的平均时间(单位是微秒毫秒)。这里可以理解为IO的响应时间,一般地系统IO响应时间应该低于5ms,如果大于10ms就比较大了。这个时间包括了队列时间和服务时间,也就是说,一般情况下,await大于svctm,它们的差值越小,则说明队列时间越短,反之差值越大,队列时间越长,说明系统出了问题。svctm表示平均每次设备I/O操作的服务时间(以毫秒为单位)。如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢。%util:在统计时间内所有处理IO时间,除以总共统计时间。例如,如果统计间隔1秒,该设备有0.8秒在处理IO,而0.2秒闲置,那么该设备的%util=0.8/1=80%,所以该参数暗示了设备的繁忙程度。一般地,如果该参数是100%表示设备已经接近满负荷运行了(当然如果是多磁盘,即使%util是100%,因为磁盘的并发能力,所以磁盘使用未必就到了瓶颈)。

常见用法

iostat-d-k110#查看TPS和吞吐量信息(磁盘读写速度单位为KB)iostat-d-m2#查看TPS和吞吐量信息(磁盘读写速度单位为MB)iostat-d-x-k110#查看设备使用率(%util)、响应时间(await)iostat-c110#查看cpu状态

实例分析

ostat-d-k1|grepsda10Device:tpskB_read/skB_wrtn/skB_readkB_wrtnsda1060.7218.9571.533956376471493241908sda10299.024266.67129.414352132sda10483.844589.904117.1745444076sda10218.003360.00100.003360100sda10546.008784.00124.008784124sda10827.0013232.00136.0013232136

上面看到,磁盘每秒传输次数平均约400;每秒磁盘读取约5MB,写入约1MB。

iostat-d-x-k1Device:rrqm/swrqm/sr/sw/srsec/swsec/srkB/swkB/savgrq-szavgqu-szawaitsvctm%utilsda1.5628.317.8431.5043.653.1621.821.581.190.030.802.6110.29sda1.9824.75419.806.9313465.35253.476732.67126.7332.152.004.702.0085.25sda3.0641.84444.9054.0814204.082048.987102.041024.4932.572.104.211.8592.24

可以看到磁盘的平均响应时间<5ms,磁盘使用率>80。磁盘响应正常,但是已经很繁忙了。