第229集：存储监控与管理

教学目标

理解存储监控与管理的基本概念和重要性
掌握Linux系统中常用的存储监控工具
学习存储监控的关键指标和监控策略
了解存储管理的最佳实践
掌握存储监控系统的搭建和配置方法
学习存储故障的预警和处理方法

核心知识点讲解

1. 存储监控与管理概述

1.1 存储监控的重要性

性能优化：及时发现性能瓶颈，优化存储配置
故障预警：提前发现潜在问题，避免服务中断
容量规划：监控存储使用情况，合理规划容量
成本控制：优化存储资源使用，降低运维成本
合规要求：满足数据安全和合规性要求

1.2 存储监控的层次

设备层：监控物理存储设备的状态和健康状况
卷管理层：监控LVM、RAID等逻辑存储的状态
文件系统层：监控文件系统的使用情况和性能
应用层：监控应用程序的存储访问模式和性能

2. 常用存储监控工具

2.1 系统自带工具

2.1.1 df - 文件系统使用情况

# 查看文件系统使用情况
df -h

# 查看inode使用情况
df -i

# 查看特定文件系统
df -h /dev/sda1

2.1.2 du - 目录空间使用情况

# 查看目录大小
du -sh /var

# 查看目录下各子目录大小
du -h --max-depth=1 /var

# 按大小排序
du -h --max-depth=1 /var | sort -hr

2.1.3 iostat - I/O性能监控

# 安装sysstat（包含iostat）
sudo yum install sysstat  # CentOS/RHEL
sudo apt install sysstat  # Ubuntu/Debian

# 查看I/O统计信息
iostat -x

# 持续监控，每秒输出一次
iostat -x 1

# 查看特定设备
iostat -x /dev/sda

2.1.4 vmstat - 虚拟内存统计

# 查看虚拟内存和I/O统计
vmstat

# 持续监控，每秒输出一次
vmstat 1

# 查看详细信息
vmstat -d

2.1.5 mpstat - 多处理器统计

# 查看CPU和I/O等待时间
mpstat -P ALL

# 持续监控，每秒输出一次
mpstat -P ALL 1

2.1.6 lsof - 打开文件列表

# 查看打开的文件
lsof

# 查看特定文件被哪些进程打开
lsof /var/log/messages

# 查看特定进程打开的文件
lsof -p 1234

2.1.7 fuser - 文件使用者

# 查看使用特定文件的进程
fuser /var/log/messages

# 查看使用特定目录的进程
fuser -m /var

# 终止使用特定文件的进程
fuser -k /var/log/messages

2.2 高级监控工具

2.2.1 smartctl - 硬盘健康监控

# 安装smartmontools
sudo yum install smartmontools  # CentOS/RHEL
sudo apt install smartmontools  # Ubuntu/Debian

# 查看硬盘健康状态
sudo smartctl -a /dev/sda

# 执行硬盘自检
sudo smartctl -t short /dev/sda

# 查看自检结果
sudo smartctl -l selftest /dev/sda

2.2.2 hdparm - 硬盘参数查看和测试

# 查看硬盘信息
sudo hdparm -i /dev/sda

# 测试硬盘读取速度
sudo hdparm -t /dev/sda

# 测试硬盘缓存读取速度
sudo hdparm -T /dev/sda

2.2.3 iotop - I/O使用情况实时监控

# 安装iotop
sudo yum install iotop  # CentOS/RHEL
sudo apt install iotop  # Ubuntu/Debian

# 运行iotop
sudo iotop

# 只显示使用I/O的进程
sudo iotop -o

# 批量模式输出
sudo iotop -b -n 5

2.2.4 nmon - 性能监控工具

# 安装nmon
sudo yum install nmon  # CentOS/RHEL
sudo apt install nmon  # Ubuntu/Debian

# 运行nmon
nmon

# 批量模式输出
nmon -f -s 10 -c 60

2.2.5 dstat - 多功能系统统计工具

# 安装dstat
sudo yum install dstat  # CentOS/RHEL
sudo apt install dstat  # Ubuntu/Debian

# 运行dstat
dstat

# 查看I/O统计
dstat -d

# 查看详细存储统计
dstat -D sda,sdb

2.3 监控系统

2.3.1 Prometheus + Grafana

Prometheus：开源的监控系统和时间序列数据库
Grafana：开源的数据可视化平台

配置步骤：

安装Prometheus和Grafana
配置Prometheus采集存储相关指标
配置Grafana创建存储监控仪表盘

2.3.2 Nagios/Zabbix

Nagios：开源的网络监控系统
Zabbix：企业级开源监控解决方案

配置步骤：

安装Nagios/Zabbix
配置存储监控插件
设置告警规则

3. 存储监控的关键指标

3.1 容量指标

使用率：文件系统或存储设备的使用百分比
剩余空间：可用存储空间大小
增长趋势：存储使用量的增长速度
inode使用：文件系统inode的使用情况

3.2 性能指标

IOPS：每秒I/O操作次数
吞吐量：每秒数据传输量
延迟：I/O操作的响应时间
队列长度：等待处理的I/O请求数量
I/O等待时间：CPU等待I/O完成的时间百分比

3.3 健康指标

硬盘温度：硬盘运行温度
SMART状态：硬盘健康状态
RAID状态：RAID阵列的健康状态
错误率：硬盘读写错误率
预测性故障：硬盘预测性故障指标

3.4 其他指标

文件系统状态：文件系统的挂载状态和完整性
LVM状态：卷组和逻辑卷的状态
网络存储延迟：iSCSI、NFS等网络存储的延迟
备份状态：备份作业的执行状态和结果

4. 存储监控策略

4.1 监控频率

高频监控：性能指标（如IOPS、延迟）应高频监控（1-5分钟）
中频监控：容量指标应中频监控（15-30分钟）
低频监控：健康状态指标可低频监控（1-6小时）

4.2 告警策略

阈值告警：设置合理的阈值，超过阈值时触发告警
趋势告警：基于历史数据趋势，预测可能的问题
复合告警：多个指标组合判断，减少误报
告警级别：根据严重程度设置不同级别的告警

4.3 数据保留策略

短期数据：性能指标保留7-30天
中期数据：容量和健康指标保留3-6个月
长期数据：趋势分析数据保留1-3年

5. 存储管理最佳实践

5.1 容量管理

定期审计：定期审计存储使用情况
容量规划：基于历史数据和业务增长预测，制定容量规划
数据分类：根据数据重要性和访问频率，选择合适的存储类型
数据归档：将不常用数据归档到低成本存储

5.2 性能管理

I/O调度：根据应用类型选择合适的I/O调度器
缓存配置：合理配置存储缓存
RAID级别：根据性能和可靠性要求选择合适的RAID级别
分区对齐：确保分区与物理扇区对齐

5.3 可用性管理

冗余设计：使用RAID、多路径等冗余技术
备份策略：实施完善的备份策略
故障转移：配置自动故障转移机制
灾难恢复：制定灾难恢复计划并定期测试

5.4 安全管理

访问控制：实施严格的存储访问控制
数据加密：对敏感数据进行加密
审计日志：记录存储访问和操作日志
漏洞管理：定期更新存储固件和软件

6. 存储监控系统搭建

6.1 使用Prometheus + Grafana搭建监控系统

安装Prometheus

# 下载Prometheus
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz

# 解压
tar xvfz prometheus-2.40.0.linux-amd64.tar.gz
cd prometheus-2.40.0.linux-amd64

# 运行Prometheus
./prometheus --config.file=prometheus.yml

配置Prometheus采集存储指标

编辑prometheus.yml文件：

global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9100']

安装Node Exporter

# 下载Node Exporter
wget https://github.com/prometheus/node_exporter/releases/download/v1.3.1/node_exporter-1.3.1.linux-amd64.tar.gz

# 解压
tar xvfz node_exporter-1.3.1.linux-amd64.tar.gz
cd node_exporter-1.3.1.linux-amd64

# 运行Node Exporter
./node_exporter

安装Grafana

# 安装Grafana
sudo apt install -y apt-transport-https software-properties-common
sudo wget -q -O /usr/share/keyrings/grafana.key https://packages.grafana.com/gpg.key
echo "deb [signed-by=/usr/share/keyrings/grafana.key] https://packages.grafana.com/oss/deb stable main" | sudo tee -a /etc/apt/sources.list.d/grafana.list
sudo apt update
sudo apt install grafana

# 启动Grafana
sudo systemctl start grafana-server
sudo systemctl enable grafana-server

配置Grafana仪表盘

访问Grafana Web界面（默认地址：http://localhost:3000）
添加Prometheus数据源
导入或创建存储监控仪表盘

6.2 使用Zabbix搭建监控系统

安装Zabbix

# 安装Zabbix服务器和代理
sudo apt install zabbix-server-mysql zabbix-frontend-php zabbix-apache-conf zabbix-sql-scripts zabbix-agent  # Ubuntu/Debian

# 或
sudo yum install zabbix-server-mysql zabbix-web-mysql zabbix-agent  # CentOS/RHEL

配置数据库

# 创建Zabbix数据库
mysql -u root -p
CREATE DATABASE zabbix character set utf8mb4 collate utf8mb4_bin;
CREATE USER zabbix@localhost IDENTIFIED BY 'password';
GRANT ALL PRIVILEGES ON zabbix.* TO zabbix@localhost;
FLUSH PRIVILEGES;
quit;

# 导入初始架构和数据
zcat /usr/share/doc/zabbix-sql-scripts/mysql/schema.sql.gz | mysql -u zabbix -p zabbix
zcat /usr/share/doc/zabbix-sql-scripts/mysql/images.sql.gz | mysql -u zabbix -p zabbix
zcat /usr/share/doc/zabbix-sql-scripts/mysql/data.sql.gz | mysql -u zabbix -p zabbix

配置Zabbix服务器

编辑/etc/zabbix/zabbix_server.conf文件：

DBPassword=password

启动服务

sudo systemctl restart zabbix-server zabbix-agent apache2
sudo systemctl enable zabbix-server zabbix-agent apache2

配置Zabbix前端

访问Zabbix Web界面（默认地址：http://localhost/zabbix）
按照安装向导完成配置
添加主机和存储监控项

7. 存储故障预警和处理

7.1 常见存储故障

硬盘故障：物理硬盘损坏
RAID故障：RAID阵列降级或失效
文件系统损坏：文件系统错误或损坏
LVM故障：卷组或逻辑卷问题
空间不足：存储容量耗尽

7.2 故障预警机制

阈值告警：设置硬盘温度、错误率等阈值
趋势分析：分析存储性能和容量的变化趋势
健康检查：定期执行存储设备健康检查
日志监控：监控存储相关日志

7.3 故障处理流程

故障识别：确认故障类型和影响范围
故障隔离：隔离故障设备，避免影响其他系统
故障修复：根据故障类型采取相应的修复措施
验证恢复：验证存储服务是否正常恢复
根因分析：分析故障原因，防止类似故障再次发生
文档记录：记录故障处理过程和结果

实用案例分析

案例1：使用Prometheus + Grafana监控存储性能

场景：搭建一个存储性能监控系统，实时监控服务器的存储性能和使用情况。

配置步骤：

安装必要组件

# 安装Prometheus、Node Exporter和Grafana
wget https://github.com/prometheus/prometheus/releases/download/v2.40.0/prometheus-2.40.0.linux-amd64.tar.gz
wget https://github.com/prometheus/node_exporter/releases/download/v1.3.1/node_exporter-1.3.1.linux-amd64.tar.gz

tar xvfz prometheus-2.40.0.linux-amd64.tar.gz
tar xvfz node_exporter-1.3.1.linux-amd64.tar.gz

# 安装Grafana
sudo apt install -y apt-transport-https software-properties-common
sudo wget -q -O /usr/share/keyrings/grafana.key https://packages.grafana.com/gpg.key
echo "deb [signed-by=/usr/share/keyrings/grafana.key] https://packages.grafana.com/oss/deb stable main" | sudo tee -a /etc/apt/sources.list.d/grafana.list
sudo apt update
sudo apt install grafana

配置Prometheus

编辑prometheus.yml文件：

global:
  scrape_interval: 10s

scrape_configs:
  - job_name: 'node'
    static_configs:
      - targets: ['localhost:9100']

启动服务

# 启动Node Exporter
./node_exporter-1.3.1.linux-amd64/node_exporter &

# 启动Prometheus
./prometheus-2.40.0.linux-amd64/prometheus --config.file=prometheus.yml &

# 启动Grafana
sudo systemctl start grafana-server
sudo systemctl enable grafana-server

配置Grafana仪表盘

访问Grafana Web界面（http://localhost:3000）
登录（默认用户名：admin，密码：admin）
添加Prometheus数据源（URL：http://localhost:9090）
导入存储监控仪表盘（ID：1860 - Node Exporter Full）
查看存储性能指标

案例2：使用smartctl监控硬盘健康状态

场景：定期检查服务器硬盘的健康状态，及时发现潜在问题。

配置步骤：

安装smartmontools

# 安装smartmontools
sudo apt install smartmontools  # Ubuntu/Debian
sudo yum install smartmontools  # CentOS/RHEL

启用SMART监控

# 启用SMART监控
sudo smartctl -s on /dev/sda

# 检查SMART状态
sudo smartctl -i /dev/sda

执行硬盘自检

# 执行短期自检
sudo smartctl -t short /dev/sda

# 执行长期自检
sudo smartctl -t long /dev/sda

# 查看自检结果
sudo smartctl -l selftest /dev/sda

创建自动监控脚本

创建check_hdd_health.sh脚本：

#!/bin/bash

# 检查所有硬盘的健康状态
for drive in /dev/sd[a-z]; do
  echo "Checking $drive..."
  sudo smartctl -H $drive
  echo ""
done

# 检查硬盘温度
for drive in /dev/sd[a-z]; do
  echo "Temperature of $drive:"
  sudo smartctl -A $drive | grep Temperature
  echo ""
done

设置定时任务

# 添加到crontab，每天执行一次
sudo crontab -e

# 添加以下行
0 0 * * * /path/to/check_hdd_health.sh >> /var/log/hdd_health.log 2>&1

案例3：使用Zabbix监控存储容量

场景：监控服务器的存储容量，当使用率超过阈值时发送告警。

配置步骤：

安装Zabbix Agent

# 安装Zabbix Agent
sudo apt install zabbix-agent  # Ubuntu/Debian
sudo yum install zabbix-agent  # CentOS/RHEL

配置Zabbix Agent

编辑/etc/zabbix/zabbix_agentd.conf文件：

Server=zabbix-server-ip
Hostname=storage-server

启动Zabbix Agent

sudo systemctl restart zabbix-agent
sudo systemctl enable zabbix-agent

在Zabbix Web界面添加主机

登录Zabbix Web界面
进入"配置" > "主机" > "创建主机"
填写主机名称和IP地址
链接"Template OS Linux"模板

配置存储容量告警

进入"配置" > "主机" > 选择主机 > "触发器"
点击"创建触发器"
填写名称："Storage usage is too high"
表达式："{storage-server:vfs.fs.size[/,pused].last()} > 80"
严重性："警告"

测试告警

# 创建大文件，模拟空间不足
sudo dd if=/dev/zero of=/testfile bs=1G count=100

课后练习

基础练习

使用df、du、iostat等命令监控本地存储
安装和配置smartmontools，检查硬盘健康状态
使用iotop监控实时I/O使用情况

进阶练习

搭建Prometheus + Grafana监控系统，创建存储监控仪表盘
配置Zabbix监控存储容量和性能
编写存储监控脚本，实现自动告警

挑战练习

设计一个完整的存储监控解决方案，包括性能监控、容量监控和健康监控
实现存储故障的自动检测和处理
构建存储容量预测模型，基于历史数据预测未来容量需求

总结

存储监控与管理是Linux系统运维的重要组成部分，它对于确保存储系统的可靠性、性能和安全性至关重要。本集介绍了存储监控与管理的基本概念、常用工具、关键指标和最佳实践，帮助您建立完善的存储监控体系。

通过本集的学习，您应该能够：

理解存储监控的重要性和监控层次
掌握Linux系统中常用的存储监控工具
学习存储监控的关键指标和监控策略
了解存储管理的最佳实践
掌握存储监控系统的搭建和配置方法
学习存储故障的预警和处理方法

在实际应用中，您应该根据具体的存储环境和业务需求，选择合适的监控工具和策略，建立适合自己的存储监控体系。同时，您还应该定期 review 监控策略和配置，确保监控系统能够及时发现和处理存储问题，保障业务的正常运行。