云服务磁盘IO监控方法实战分享

发布时间：2025-12-15 01:55:55 阅读：271 次

为什么需要关注 云服务磁盘IO

在日常运维中，你可能遇到过这种情况：应用突然变慢，接口响应时间飙升，但CPU和内存使用率看起来一切正常。这时候问题很可能出在磁盘IO上。尤其在云环境下，实例共享底层存储资源，IO波动更频繁，监控不到位就容易引发雪崩。

比如某次上线后订单系统卡顿，排查发现不是数据库锁，而是云磁盘的写入延迟从2ms飙到了80ms。这时候如果早有IO监控告警，就能提前介入，而不是等到用户投诉才行动。

真正有用的监控不在于数据多全，而在于抓住关键指标。重点关注这几个值：

这些数据能帮你判断是应用压力过大，还是云平台存储层出了问题。

Linux自带的iostat是最直接的工具。安装sysstat包后就可以用：

iostat -x 1 5

这行命令每秒输出一次，共五次，-x参数显示扩展统计信息。重点关注%util是否接近100%，如果是，说明磁盘已经饱和。r/s和w/s告诉你读写频率，avgqu-sz反映请求队列长度，大于2就要注意了。

阿里云、腾讯云、AWS都提供了磁盘IO的监控面板。以阿里云为例，在ECS实例详情页进入“监控信息”，可以直接看到BPS（带宽）、IOPS、IO等待时间等曲线。设置阈值告警后，一旦IO延迟持续超过设定值，就会通过短信或邮件通知。

别忘了绑定云监控Agent，有些基础指标默认只采集主机层面数据，装了Agent才能获取细粒度的磁盘IO情况。

如果你有自己的监控体系，Prometheus搭配Node Exporter是个靠谱选择。部署Node Exporter后，它会暴露/proc/diskstats里的原始数据。

在Prometheus里配置抓取任务：

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['your-server-ip:9100']

查询磁盘写延迟可以用：

rate(node_disk_write_time_seconds_total[1m]) / rate(node_disk_writes_completed_total[1m])

把关键指标做成Grafana看板，历史趋势一目了然，还能结合业务高峰做容量规划。

有个常见误区：只看平均值。实际上磁盘IO的长尾延迟才是真正杀手。一次突发的100ms延迟可能让整个请求链超时。建议同时采集P95、P99分位值。

另外，SSD和HDD的监控策略不同。云服务器基本都是SSD，随机读写能力强，但也要防止单实例打满IOPS导致被限流。某些云厂商会对单盘设置IOPS上限，超了就会被 throttle。

定期跑下fio压测，了解当前实例的IO能力边界，比出问题后再救火强得多。