第248集：集群性能优化

教学目标

了解集群性能优化的基本概念和重要性
掌握集群性能评估的方法和工具
学习集群性能优化的策略和原则
熟悉集群资源管理、网络优化、存储优化等具体技术
能够根据实际场景制定和实施集群性能优化方案
了解集群性能优化的最佳实践和常见误区

核心知识点讲解

1. 集群性能优化概述

1.1 性能优化的基本概念

集群性能优化 是指通过调整系统配置、资源分配、网络架构等方式，提高集群系统的响应速度、吞吐量和资源利用率，确保集群系统在满足业务需求的同时，保持稳定和高效运行。

1.2 性能优化的重要性

集群性能优化在以下方面发挥重要作用：

提高业务响应速度：减少应用程序的响应时间，提升用户体验
增加系统吞吐量：提高系统处理请求的能力，支持更多并发用户
优化资源利用率：充分利用集群资源，降低硬件成本
提升系统稳定性：减少系统负载过高导致的故障风险
增强可扩展性：为系统扩展预留资源空间，支持业务增长
降低能源消耗：减少不必要的资源使用，降低能源成本

1.3 性能优化的挑战

集群性能优化面临的挑战包括：

复杂性：集群系统由多个节点和组件组成，性能问题可能来自多个方面
关联性：不同组件的性能相互影响，优化一个组件可能影响其他组件
动态性：集群负载和业务需求不断变化，性能优化需要持续进行
权衡：性能优化往往需要在不同指标之间进行权衡，如响应时间和吞吐量
成本：某些优化措施可能需要增加硬件投资或开发成本
专业性：性能优化需要深入了解系统架构和工作原理

2. 集群性能评估

2.1 性能指标

性能指标 是衡量集群系统性能的量化标准，用于评估系统的运行状态和优化效果。

2.1.1 系统级指标

CPU利用率：CPU的使用百分比，包括用户空间、系统空间和空闲时间
内存使用率：物理内存的使用百分比，包括缓存和缓冲区
磁盘I/O：磁盘的读写速度、IOPS（每秒输入/输出操作数）和延迟
网络吞吐量：网络的传输速度，包括发送和接收的字节数
系统负载：系统的繁忙程度，通常用1分钟、5分钟和15分钟的平均值表示

2.1.2 集群级指标

集群整体吞吐量：集群处理请求的总能力
集群响应时间：集群处理请求的平均时间
节点负载均衡度：各节点负载的均衡程度
故障转移时间：从节点故障到服务恢复的时间
资源利用率：集群资源的整体使用情况

2.1.3 应用级指标

应用响应时间：应用程序处理请求的时间
应用吞吐量：应用程序处理请求的速率
并发用户数：同时访问应用程序的用户数
事务处理率：每秒处理的事务数
错误率：请求处理失败的比例

2.2 性能评估工具

性能评估工具 用于收集和分析性能指标，帮助识别性能瓶颈和优化机会。

2.2.1 系统监控工具

top：实时查看系统CPU、内存、进程等信息
vmstat：查看虚拟内存、进程、CPU活动等信息
iostat：查看磁盘I/O性能统计信息
netstat：查看网络连接、路由表、接口统计等信息
sar：系统活动报告工具，收集和分析系统性能数据
mpstat：查看多处理器系统的CPU利用率

2.2.2 集群监控工具

Nagios：传统的网络监控工具，支持集群监控
Zabbix：企业级监控解决方案，支持分布式监控
Prometheus：开源的监控系统，支持多维数据模型和灵活查询
Grafana：数据可视化工具，与Prometheus配合使用
Pacemaker/Corosync工具：监控高可用集群状态
Kubernetes工具：如kubectl top，监控Kubernetes集群资源使用情况
Ceph工具：如ceph status，监控Ceph存储集群状态

2.2.3 性能测试工具

**Apache Bench (ab)**：HTTP性能测试工具，用于测试Web服务器的吞吐量
wrk：现代HTTP基准测试工具，支持多线程测试
JMeter：功能强大的负载测试工具，支持多种协议
LoadRunner：商业负载测试工具，支持复杂场景测试
iperf：网络性能测试工具，用于测试网络带宽
fio：灵活的I/O测试工具，用于测试存储性能

2.3 性能评估方法

性能评估方法 是指通过系统性的测试和分析，评估集群系统性能的过程。

2.3.1 基准测试

基准测试 是在标准化的环境和负载下，测试系统性能的方法，用于建立性能基线和比较不同配置的性能差异。

步骤：
1. 确定测试目标和指标
2. 准备测试环境和数据
3. 执行测试并收集数据
4. 分析测试结果
5. 建立性能基线

2.3.2 负载测试

负载测试 是在逐渐增加负载的情况下，测试系统性能的方法，用于确定系统的最大容量和性能瓶颈。

步骤：
1. 确定测试场景和负载模型
2. 准备测试环境和数据
3. 逐渐增加负载并执行测试
4. 收集和分析性能数据
5. 确定系统最大容量和性能瓶颈

2.3.3 压力测试

压力测试 是在超过系统正常负载的情况下，测试系统性能的方法，用于评估系统的稳定性和可靠性。

步骤：
1. 确定测试场景和极限负载
2. 准备测试环境和数据
3. 施加极限负载并执行测试
4. 观察系统行为和性能变化
5. 分析系统的稳定性和故障恢复能力

3. 集群性能优化策略

3.1 优化策略的基本概念

性能优化策略 是指根据性能评估结果，制定的系统性优化方案，包括优化目标、方法和实施步骤。

3.2 优化策略的制定原则

目标明确：明确性能优化的目标和指标，避免盲目优化
数据驱动：基于性能评估数据，识别真正的性能瓶颈
系统性：从整体角度考虑性能优化，避免局部优化
循序渐进：分阶段实施优化措施，逐步验证效果
可衡量：建立性能基线，量化优化效果
可持续：建立性能监控和优化的长效机制

3.3 优化策略的实施步骤

性能评估：使用监控工具和测试工具，评估集群当前性能
瓶颈识别：分析性能数据，识别主要性能瓶颈
方案设计：根据瓶颈分析结果，设计优化方案
方案实施：按照优化方案，实施具体的优化措施
效果验证：再次进行性能测试，验证优化效果
持续监控：建立持续监控机制，及时发现新的性能问题

4. 集群资源管理优化

4.1 CPU资源优化

CPU资源优化 是指通过调整CPU分配和调度策略，提高CPU资源的利用率和系统的处理能力。

4.1.1 CPU调度优化

调整进程优先级：使用nice和renice命令调整进程的优先级
设置CPU亲和性：使用taskset命令将进程绑定到特定的CPU核心
调整调度策略：根据应用程序类型选择合适的调度策略（如SCHED_OTHER、SCHED_FIFO、SCHED_RR）
配置cgroup：使用cgroup限制进程的CPU使用量

4.1.2 CPU优化配置

# 调整进程优先级
nice -n -10 ./application

# 设置CPU亲和性
taskset -c 0,1 ./application

# 查看当前CPU使用情况
top

# 查看CPU详细信息
lscpu

# 配置cgroup CPU限制
echo "102400" > /sys/fs/cgroup/cpu/myapp/cpu.cfs_quota_us
echo "1000000" > /sys/fs/cgroup/cpu/myapp/cpu.cfs_period_us

4.2 内存资源优化

内存资源优化 是指通过调整内存分配和使用策略，提高内存资源的利用率和系统的稳定性。

4.2.1 内存管理优化

调整内存分配：根据应用程序需求，合理分配内存资源
优化内存缓存：调整系统缓存策略，平衡缓存使用和可用内存
使用大页内存：为内存密集型应用程序配置大页内存，减少TLB misses
监控内存使用：使用free、vmstat等工具监控内存使用情况
配置cgroup：使用cgroup限制进程的内存使用量

4.2.2 内存优化配置

# 查看内存使用情况
free -h

# 查看内存详细信息
vmstat 1

# 配置大页内存
echo "1024" > /proc/sys/vm/nr_hugepages

# 查看大页内存使用情况
grep Huge /proc/meminfo

# 配置cgroup内存限制
echo "1073741824" > /sys/fs/cgroup/memory/myapp/memory.limit_in_bytes

4.3 进程管理优化

进程管理优化 是指通过调整进程数量和管理策略，提高系统的处理能力和稳定性。

4.3.1 进程数量优化

调整并发进程数：根据系统资源和应用需求，设置合适的并发进程数
使用进程池：对于频繁创建和销毁的进程，使用进程池减少开销
优化进程启动时间：减少进程启动时的初始化工作，加快启动速度
监控进程状态：使用ps、top等工具监控进程状态，及时发现异常进程

4.3.2 进程管理配置

# 查看进程状态
ps aux | grep application

# 查看进程树
pstree

# 调整进程最大数
echo "65536" > /proc/sys/kernel/pid_max

# 调整文件描述符限制
echo "* soft nofile 65536" >> /etc/security/limits.conf
echo "* hard nofile 65536" >> /etc/security/limits.conf

5. 集群网络优化

5.1 网络架构优化

网络架构优化 是指通过调整网络拓扑和配置，提高网络传输效率和可靠性。

5.1.1 网络拓扑优化

使用高速网络：采用万兆以太网或InfiniBand网络，提高网络带宽
网络分段：将不同类型的流量分离到不同的网络中，如管理网络、业务网络和存储网络
冗余设计：配置网络冗余，如多网卡绑定、多路径路由，提高网络可靠性
负载均衡：使用网络负载均衡器，分发网络流量，提高网络吞吐量

5.1.2 网络配置优化

# 配置网卡绑定
cat > /etc/sysconfig/network-scripts/ifcfg-bond0 << 'EOF'
DEVICE=bond0
BOOTPROTO=static
IPADDR=192.168.1.10
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
ONBOOT=yes
BONDING_OPTS="mode=4 miimon=100 lacp_rate=1"
EOF

cat > /etc/sysconfig/network-scripts/ifcfg-eth0 << 'EOF'
DEVICE=eth0
BOOTPROTO=none
ONBOOT=yes
MASTER=bond0
SLAVE=yes
EOF

cat > /etc/sysconfig/network-scripts/ifcfg-eth1 << 'EOF'
DEVICE=eth1
BOOTPROTO=none
ONBOOT=yes
MASTER=bond0
SLAVE=yes
EOF

# 重启网络服务
systemctl restart network

# 查看绑定状态
cat /proc/net/bonding/bond0

5.2 网络参数优化

网络参数优化 是指通过调整网络协议栈参数，提高网络传输性能。

5.2.1 TCP参数优化

调整TCP缓冲区大小：增大TCP缓冲区，提高网络吞吐量
优化TCP拥塞控制算法：选择适合网络环境的拥塞控制算法
调整TCP连接超时时间：根据网络环境调整连接超时时间
启用TCP快速打开：减少TCP连接建立的延迟
启用TCP SYN cookies：防止SYN洪水攻击，同时提高连接处理能力

5.2.2 网络参数配置

# 配置网络参数
cat > /etc/sysctl.d/network.conf << 'EOF'
# 调整TCP缓冲区大小
net.core.rmem_default = 262144
net.core.rmem_max = 16777216
net.core.wmem_default = 262144
net.core.wmem_max = 16777216

# 调整TCP拥塞控制算法
net.ipv4.tcp_congestion_control = cubic

# 调整TCP连接超时时间
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 1200
net.ipv4.tcp_keepalive_probes = 5
net.ipv4.tcp_keepalive_intvl = 15

# 启用TCP快速打开
net.ipv4.tcp_fastopen = 3

# 启用TCP SYN cookies
net.ipv4.tcp_syncookies = 1

# 调整最大连接数
net.core.somaxconn = 65535
net.ipv4.tcp_max_syn_backlog = 65535

# 调整网络队列长度
net.core.netdev_max_backlog = 65535
EOF

# 应用网络参数
sysctl -p /etc/sysctl.d/network.conf

5.3 网络服务优化

网络服务优化 是指通过调整网络服务的配置，提高服务的响应速度和处理能力。

5.3.1 Web服务器优化

调整进程数和线程数：根据服务器资源和负载情况，调整Web服务器的进程数和线程数
启用缓存：启用浏览器缓存、代理缓存和服务器端缓存，减少重复请求
压缩内容：启用HTTP压缩，减少传输数据量
使用CDN：使用内容分发网络，将静态内容分发到离用户更近的节点
优化SSL/TLS配置：调整SSL/TLS参数，减少握手时间

5.3.2 Web服务器优化配置

# Nginx 优化配置
cat > /etc/nginx/nginx.conf << 'EOF'
user nginx;
worker_processes auto;
worker_cpu_affinity auto;

events {
    worker_connections 10240;
    use epoll;
    multi_accept on;
}

http {
    include /etc/nginx/mime.types;
    default_type application/octet-stream;
    
    # 启用sendfile
    sendfile on;
    tcp_nopush on;
    tcp_nodelay on;
    
    # 调整keepalive参数
    keepalive_timeout 65;
    keepalive_requests 100;
    
    # 启用gzip压缩
    gzip on;
    gzip_comp_level 6;
    gzip_types text/plain text/css application/json application/javascript text/xml application/xml application/xml+rss text/javascript;
    
    # 限制请求体大小
    client_max_body_size 10m;
    
    # 配置虚拟主机
    include /etc/nginx/conf.d/*.conf;
}
EOF

# 重启Nginx
systemctl restart nginx

6. 集群存储优化

6.1 存储架构优化

存储架构优化 是指通过调整存储拓扑和配置，提高存储系统的性能和可靠性。

6.1.1 存储拓扑优化

使用高速存储设备：采用SSD或NVMe存储设备，提高存储I/O性能
存储分层：根据数据访问频率，将数据存储在不同性能的存储设备上
存储网络优化：使用高速存储网络，如光纤通道（FC）或iSCSI
存储冗余：配置RAID或分布式存储，提高存储可靠性和性能
存储虚拟化：使用存储虚拟化技术，提高存储资源的利用率

6.1.2 存储配置优化

# 配置RAID
# 使用mdadm创建RAID 10
mdadm --create /dev/md0 --level=10 --raid-devices=4 /dev/sdb /dev/sdc /dev/sdd /dev/sde

# 查看RAID状态
mdadm --detail /dev/md0

# 创建文件系统
mkfs.xfs /dev/md0

# 挂载文件系统
mkdir -p /data
mount /dev/md0 /data

# 配置自动挂载
echo '/dev/md0 /data xfs defaults 0 0' >> /etc/fstab

6.2 文件系统优化

文件系统优化 是指通过调整文件系统参数，提高文件系统的性能和可靠性。

6.2.1 文件系统选择

ext4：传统的Linux文件系统，稳定可靠，适合一般应用
XFS：高性能文件系统，适合大文件和高并发场景
Btrfs：新一代文件系统，支持快照、校验和等高级功能
ZFS：功能强大的文件系统，支持数据压缩、重复数据删除等功能

6.2.2 文件系统参数优化

# XFS 文件系统优化
# 挂载时优化参数
mount -t xfs -o noatime,nodiratime,logbufs=8,logbsize=256k /dev/md0 /data

# 永久配置
cat >> /etc/fstab << 'EOF'
/dev/md0 /data xfs noatime,nodiratime,logbufs=8,logbsize=256k 0 0
EOF

# 查看当前挂载参数
mount | grep /data

# 优化文件系统性能
tune2fs -o journal_data_writeback /dev/sda1

6.3 I/O调度优化

I/O调度优化 是指通过调整I/O调度器，提高存储I/O的性能。

6.3.1 I/O调度器选择

**CFQ (Completely Fair Queueing)**：默认调度器，适合一般应用场景
Deadline：实时调度器，适合数据库等对延迟敏感的应用
**NOOP (No Operation)**：简单调度器，适合SSD等高速存储设备
Kyber：专为高速存储设备设计的调度器，平衡延迟和吞吐量

6.3.2 I/O调度器配置

# 查看当前I/O调度器
cat /sys/block/sda/queue/scheduler

# 临时设置I/O调度器
echo "deadline" > /sys/block/sda/queue/scheduler

# 永久设置I/O调度器
cat > /etc/udev/rules.d/60-scheduler.rules << 'EOF'
ACTION=="add|change", KERNEL=="sd*", ATTR{queue/scheduler}="deadline"
EOF

# 优化I/O队列长度
echo "1024" > /sys/block/sda/queue/nr_requests

7. 集群负载均衡优化

7.1 负载均衡算法优化

负载均衡算法优化 是指选择和配置合适的负载均衡算法，提高集群的负载分布均匀性和资源利用率。

7.1.1 常见负载均衡算法

**轮询 (Round Robin)**：按顺序将请求分发到各个节点，适合节点性能相近的场景
**权重轮询 (Weighted Round Robin)**：根据节点权重分发请求，适合节点性能不同的场景
**最少连接 (Least Connection)**：将请求分发到当前连接数最少的节点，适合长连接场景
**IP哈希 (IP Hash)**：根据客户端IP地址哈希值分发请求，确保同一客户端的请求始终分发到同一节点
**URL哈希 (URL Hash)**：根据请求URL哈希值分发请求，适合缓存场景
**最少响应时间 (Least Response Time)**：将请求分发到响应时间最短的节点，适合对响应时间敏感的场景

7.1.2 负载均衡算法配置

# Nginx 负载均衡配置
cat > /etc/nginx/conf.d/loadbalancer.conf << 'EOF'
upsream backend {
    # 使用最少连接算法
    least_conn;
    
    # 配置后端服务器，设置权重
    server 192.168.1.100:80 weight=5;
    server 192.168.1.101:80 weight=3;
    server 192.168.1.102:80 weight=2;
    
    # 配置健康检查
    check interval=3000 rise=2 fall=3 timeout=1000;
}

server {
    listen 80;
    server_name example.com;
    
    location / {
        proxy_pass http://backend;
        proxy_set_header Host $host;
        proxy_set_header X-Real-IP $remote_addr;
        proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
        
        # 配置代理缓存
        proxy_cache_path /var/cache/nginx levels=1:2 keys_zone=mycache:10m max_size=10g inactive=60m use_temp_path=off;
        proxy_cache mycache;
        proxy_cache_valid 200 304 10m;
    }
}
EOF

# 重启Nginx
systemctl restart nginx

7.2 健康检查优化

健康检查优化 是指通过配置和调整健康检查机制，及时发现和处理节点故障，提高集群的可用性和可靠性。

7.2.1 健康检查策略

主动健康检查：负载均衡器定期向后端节点发送检测请求，检查节点状态
被动健康检查：负载均衡器根据后端节点的响应情况，判断节点状态
混合健康检查：结合主动和被动健康检查，提高检测准确性
分层健康检查：从不同层面（如网络、应用、业务）检查节点状态

7.2.2 健康检查配置

# HAProxy 健康检查配置
cat > /etc/haproxy/haproxy.cfg << 'EOF'
global
    log /dev/log    local0
    log /dev/log    local1 notice
    chroot /var/lib/haproxy
    stats socket /run/haproxy/admin.sock mode 660 level admin expose-fd listeners
    stats timeout 30s
    user haproxy
    group haproxy
    daemon

defaults
    log     global
    mode    http
    option  httplog
    option  dontlognull
    timeout connect 5000
    timeout client  50000
    timeout server  50000

frontend http-in
    bind *:80
    default_backend servers

backend servers
    balance roundrobin
    # 配置健康检查
    option httpchk GET /healthcheck
    http-check expect status 200
    timeout check 10s
    # 配置后端服务器
    server server1 192.168.1.100:80 check inter 3s rise 2 fall 3
    server server2 192.168.1.101:80 check inter 3s rise 2 fall 3
    server server3 192.168.1.102:80 check inter 3s rise 2 fall 3

# 配置统计页面
listen stats
    bind *:8080
    stats enable
    stats uri /stats
    stats refresh 10s
EOF

# 重启HAProxy
systemctl restart haproxy

8. 集群应用优化

8.1 应用程序优化

应用程序优化 是指通过调整应用程序的代码和配置，提高应用程序的性能和资源利用率。

8.1.1 代码优化

算法优化：选择更高效的算法和数据结构
减少I/O操作：批量处理I/O操作，减少磁盘和网络I/O
优化内存使用：减少内存分配和释放，避免内存泄漏
并发编程：使用多线程、多进程或异步编程，提高并发处理能力
缓存策略：合理使用缓存，减少重复计算和I/O操作

8.1.2 数据库优化

索引优化：创建合适的索引，提高查询速度
查询优化：优化SQL语句，减少查询时间
连接池：使用数据库连接池，减少连接建立和销毁的开销
分区表：对大表进行分区，提高查询和维护效率
读写分离：将读操作和写操作分离到不同的数据库节点
缓存：使用Redis、Memcached等缓存工具，减少数据库访问

8.1.3 数据库优化配置

# MySQL 优化配置
cat > /etc/my.cnf << 'EOF'
[mysqld]
# 基本配置
user = mysql
datadir = /var/lib/mysql
socket = /var/lib/mysql/mysql.sock

# 性能优化
# 内存配置
innodb_buffer_pool_size = 2G
key_buffer_size = 256M
max_connections = 1000

# 查询优化
query_cache_type = 1
query_cache_size = 64M
query_cache_limit = 2M

# 连接优化
wait_timeout = 60
interactive_timeout = 28800

# InnoDB 优化
innodb_flush_method = O_DIRECT
innodb_log_file_size = 512M
innodb_log_buffer_size = 16M
innodb_file_per_table = 1

# 日志配置
log-error = /var/log/mysqld.log
pid-file = /var/run/mysqld/mysqld.pid
EOF

# 重启MySQL
systemctl restart mysqld

8.2 容器化应用优化

容器化应用优化 是指通过调整容器配置和编排策略，提高容器化应用的性能和资源利用率。

8.2.1 容器配置优化

资源限制：为容器设置合理的CPU和内存限制
镜像优化：使用最小化镜像，减少镜像大小和启动时间
存储优化：使用emptyDir或hostPath挂载临时文件，使用PersistentVolume挂载持久数据
网络优化：使用host网络模式或配置高效的网络插件
健康检查：为容器配置健康检查，及时发现和处理故障

8.2.2 Kubernetes 集群优化

# Kubernetes 资源限制配置
cat > deployment.yaml << 'EOF'
apiVersion: apps/v1
kind: Deployment
metadata:
  name: web-app
spec:
  replicas: 3
  selector:
    matchLabels:
      app: web-app
  template:
    metadata:
      labels:
        app: web-app
    spec:
      containers:
      - name: web-app
        image: nginx:latest
        resources:
          requests:
            cpu: "500m"
            memory: "512Mi"
          limits:
            cpu: "1"
            memory: "1Gi"
        readinessProbe:
          httpGet:
            path: /health
            port: 80
          initialDelaySeconds: 5
          periodSeconds: 10
        livenessProbe:
          httpGet:
            path: /health
            port: 80
          initialDelaySeconds: 15
          periodSeconds: 20
        ports:
        - containerPort: 80
EOF

# 应用配置
kubectl apply -f deployment.yaml

# 配置 Horizontal Pod Autoscaler
kubectl autoscale deployment web-app --cpu-percent=50 --min=3 --max=10

9. 集群性能优化最佳实践

9.1 设计原则

性能优先：在系统设计阶段就考虑性能因素，避免后期优化困难
可扩展性：设计支持水平扩展的系统架构，适应业务增长
模块化：将系统分解为独立的模块，便于性能优化和维护
监控先行：建立完善的监控系统，及时发现性能问题
持续优化：将性能优化作为持续过程，不断改进系统性能

9.2 实施策略

基准测试：在系统部署前进行基准测试，建立性能基线
分层优化：从应用层、中间层到基础设施层，分层进行优化
渐进式优化：分阶段实施优化措施，逐步验证效果
A/B测试：通过A/B测试，比较不同优化方案的效果
文档化：记录优化过程和结果，建立优化知识库

9.3 常见误区

盲目增加硬件：硬件升级虽然可以提高性能，但可能掩盖真正的性能瓶颈
过度优化：过度优化可能增加系统复杂性，影响系统稳定性
忽略监控：缺乏监控可能导致性能问题无法及时发现
局部优化：只优化单个组件，忽略整体性能
忽视可维护性：优化措施可能降低系统的可维护性，增加长期成本
缺乏测试：未经过充分测试的优化措施可能引入新的问题

实用案例分析

案例1：Pacemaker 高可用集群性能优化

场景描述

某企业部署了一个 2 节点的 Pacemaker 高可用集群，用于运行关键业务应用。随着业务增长，集群性能逐渐下降，响应时间延长，需要进行性能优化。

解决方案

环境准备：
- 集群节点：node1, node2
- 操作系统：CentOS 7
- 集群软件：Pacemaker, Corosync
- 业务应用：Web应用，数据库应用
性能评估：

# 监控系统资源使用情况
top

# 监控网络流量
iptraf-ng

# 监控磁盘I/O
iostat -x 1

# 监控集群状态
pcs status

# 压力测试
ab -n 10000 -c 100 http://cluster-vip/index.html

瓶颈识别：
- CPU利用率：node1 达到 80%，node2 达到 75%
- 内存使用率：node1 和 node2 均达到 70%
- 磁盘I/O：node1 的磁盘I/O等待时间较长
- 网络流量：集群内部网络流量正常
- 应用响应时间：Web应用响应时间超过 2 秒
优化措施：

CPU 优化：

# 调整进程优先级
nice -n -5 /usr/sbin/httpd

# 设置CPU亲和性
taskset -c 0,1 /usr/sbin/mysqld

内存优化：

# 调整MySQL内存配置
echo "innodb_buffer_pool_size = 1G" >> /etc/my.cnf
systemctl restart mysqld

# 调整系统内存参数
echo "vm.swappiness = 10" >> /etc/sysctl.conf
sysctl -p

存储优化：

# 更换磁盘为SSD
# 配置RAID 10
mdadm --create /dev/md0 --level=10 --raid-devices=4 /dev/sdb /dev/sdc /dev/sdd /dev/sde

# 格式化并挂载
mkfs.xfs /dev/md0
mount /dev/md0 /data

网络优化：

# 配置网卡绑定
cat > /etc/sysconfig/network-scripts/ifcfg-bond0 << 'EOF'
DEVICE=bond0
BOOTPROTO=static
IPADDR=192.168.1.10
NETMASK=255.255.255.0
GATEWAY=192.168.1.1
ONBOOT=yes
BONDING_OPTS="mode=4 miimon=100 lacp_rate=1"
EOF

# 重启网络服务
systemctl restart network

应用优化：

# 优化Nginx配置
cat > /etc/nginx/nginx.conf << 'EOF'
user nginx;
worker_processes auto;
worker_cpu_affinity auto;

events {
    worker_connections 10240;
    use epoll;
}

http {
    sendfile on;
    tcp_nopush on;
    tcp_nodelay on;
    keepalive_timeout 65;
    
    gzip on;
    gzip_comp_level 6;
    gzip_types text/plain text/css application/json application/javascript;
    
    server {
        listen 80;
        server_name example.com;
        
        location / {
            root /usr/share/nginx/html;
            index index.html index.htm;
        }
    }
}
EOF

# 重启Nginx
systemctl restart nginx

效果验证：
- CPU利用率：node1 和 node2 均降至 40% 以下
- 内存使用率：node1 和 node2 均降至 50% 以下
- 磁盘I/O：I/O等待时间显著减少
- 应用响应时间：Web应用响应时间降至 500ms 以下
- 系统稳定性：集群运行稳定，无故障发生

案例2：Kubernetes 集群性能优化

场景描述

某企业部署了一个 Kubernetes 集群，包含 1 个 master 节点和 3 个 worker 节点，用于运行容器化应用。随着容器数量增加，集群性能下降，需要进行性能优化。

解决方案

环境准备：
- 集群节点：master1, worker1, worker2, worker3
- 操作系统：CentOS 7
- 集群软件：Kubernetes 1.21
- 容器运行时：Docker
- 网络插件：Calico
性能评估：

# 监控集群资源使用情况
kubectl top nodes
kubectl top pods --all-namespaces

# 监控系统资源
top

# 监控网络流量
iptraf-ng

# 监控磁盘I/O
iostat -x 1

# 压力测试
kubectl run -i --tty load-generator --image=busybox /bin/sh
> while true; do wget -q -O- http://web-app.default.svc.cluster.local; done

瓶颈识别：
- 节点资源：worker1 和 worker2 的 CPU 利用率达到 90% 以上
- Pod 分布：Pod 分布不均匀，部分节点负载过高
- 网络延迟：容器间网络通信延迟增加
- 存储性能：持久卷的 I/O 性能下降
- 调度延迟：Pod 调度时间延长
优化措施：

节点资源优化：

# 调整 kubelet 配置
cat > /var/lib/kubelet/config.yaml << 'EOF'
kubeletConfig:
  cpuManagerPolicy: static
  cpuCFSQuota: true
  cpuCFSQuotaPeriod: 100ms
  memoryManagerPolicy: Static
  topologymanagementPolicy: BestEffort
EOF

# 重启 kubelet
systemctl restart kubelet

Pod 调度优化：

# 配置 Pod 亲和性和反亲和性
cat > deployment.yaml << 'EOF'
apiVersion: apps/v1
kind: Deployment
metadata:
  name: web-app
spec:
  replicas: 6
  selector:
    matchLabels:
      app: web-app
  template:
    metadata:
      labels:
        app: web-app
    spec:
      affinity:
        podAntiAffinity:
          requiredDuringSchedulingIgnoredDuringExecution:
          - labelSelector:
              matchExpressions:
              - key: app
                operator: In
                values:
                - web-app
            topologyKey: kubernetes.io/hostname
      containers:
      - name: web-app
        image: nginx:latest
        resources:
          requests:
            cpu: "200m"
            memory: "256Mi"
          limits:
            cpu: "500m"
            memory: "512Mi"
EOF

# 应用配置
kubectl apply -f deployment.yaml

网络优化：

# 优化 Calico 网络配置
cat > calico-config.yaml << 'EOF'
apiVersion: projectcalico.org/v3
kind: CalicoNetwork
metadata:
  name: default
spec:
  ipPools:
  - blockSize: 26
    cidr: 192.168.0.0/16
    encapsulation: VXLANCrossSubnet
    natOutgoing: true
    nodeSelector: all()
EOF

# 应用配置
kubectl apply -f calico-config.yaml

存储优化：

# 配置存储类
cat > storageclass.yaml << 'EOF'
apiVersion: storage.k8s.io/v1
kind: StorageClass
metadata:
  name: fast
provisioner: kubernetes.io/aws-ebs
parameters:
  type: gp3
  iopsPerGB: "10"
  encrypted: "true"
reclaimPolicy: Retain
allowVolumeExpansion: true
volumeBindingMode: WaitForFirstConsumer
EOF

# 应用配置
kubectl apply -f storageclass.yaml

# 使用存储类创建持久卷声明
cat > pvc.yaml << 'EOF'
apiVersion: v1
kind: PersistentVolumeClaim
metadata:
  name: app-storage
spec:
  accessModes:
    - ReadWriteOnce
  storageClassName: fast
  resources:
    requests:
      storage: 10Gi
EOF

# 应用配置
kubectl apply -f pvc.yaml

调度器优化：

# 配置调度器策略
cat > scheduler-config.yaml << 'EOF'
apiVersion: kubescheduler.config.k8s.io/v1beta1
kind: KubeSchedulerConfiguration
profiles:
- schedulerName: default-scheduler
  plugins:
    score:
      enabled:
      - name: NodeResourcesBalancedAllocation
        weight: 1
      - name: ImageLocality
        weight: 1
      - name: PodTopologySpread
        weight: 2
  pluginConfig:
  - name: NodeResourcesBalancedAllocation
    args:
      resources:
      - name: cpu
        weight: 1
      - name: memory
        weight: 1
EOF

# 更新调度器配置
kubectl patch deployment kube-scheduler -n kube-system --type=json -p='[
  {
    "op": "replace",
    "path": "/spec/template/spec/containers/0/command",
    "value": [
      "kube-scheduler",
      "--config=/etc/kubernetes/scheduler-config.yaml"
    ]
  },
  {
    "op": "add",
    "path": "/spec/template/spec/containers/0/volumeMounts/-",
    "value": {
      "name": "scheduler-config",
      "mountPath": "/etc/kubernetes/scheduler-config.yaml",
      "subPath": "scheduler-config.yaml"
    }
  },
  {
    "op": "add",
    "path": "/spec/template/spec/volumes/-",
    "value": {
      "name": "scheduler-config",
      "configMap": {
        "name": "scheduler-config"
      }
    }
  }
]'

# 创建配置映射
kubectl create configmap scheduler-config -n kube-system --from-file=scheduler-config.yaml

效果验证：
- 节点资源：所有 worker 节点的 CPU 利用率均降至 60% 以下
- Pod 分布：Pod 均匀分布在各个 worker 节点上
- 网络延迟：容器间网络通信延迟显著减少
- 存储性能：持久卷的 I/O 性能显著提升
- 调度延迟：Pod 调度时间缩短至 1 秒以内
- 系统稳定性：集群运行稳定，无故障发生

案例3：Ceph 存储集群性能优化

场景描述

某企业部署了一个 Ceph 存储集群，包含 3 个 monitor 节点和 6 个 OSD 节点，用于存储业务数据。随着数据量增加，存储性能下降，需要进行性能优化。

解决方案

环境准备：
- 集群节点：mon1, mon2, mon3, osd1, osd2, osd3, osd4, osd5, osd6
- 操作系统：CentOS 7
- 集群软件：Ceph 15.2.13
- OSD 设备：每个 OSD 节点配置 2 块 SSD 磁盘
性能评估：

# 监控集群状态
ceph status
ceph health
ceph osd tree

# 监控 OSD 性能
ceph osd perf

# 监控存储性能
rados bench -p rbd 60 write --no-cleanup
rados bench -p rbd 60 seq
rados bench -p rbd 60 rand

# 监控系统资源
top

# 监控磁盘I/O
iostat -x 1

# 监控网络流量
iptraf-ng

瓶颈识别：
- OSD 性能：部分 OSD 的利用率达到 90% 以上
- 网络带宽：集群网络带宽接近饱和
- 内存使用：OSD 节点的内存使用率达到 80% 以上
- 磁盘I/O：部分 OSD 磁盘的 I/O 等待时间较长
- 集群负载：集群整体负载较高
优化措施：

OSD 优化：

# 调整 OSD 内存配置
cat >> /etc/ceph/ceph.conf << 'EOF'
[osd]
osd_memory_target = 4294967296
osd_op_threads = 8
osd_disk_threads = 4
osd_max_backfills = 1
osd_recovery_max_active = 1
osd_recovery_op_priority = 1
EOF

# 重启 OSD 服务
systemctl restart ceph-osd@0
# 重启其他 OSD 服务...

网络优化：

# 配置网络分区
cat >> /etc/ceph/ceph.conf << 'EOF'
[global]
public_network = 192.168.1.0/24
cluster_network = 10.0.0.0/24
EOF

# 重启 Ceph 服务
systemctl restart ceph.target

# 配置网络参数
cat > /etc/sysctl.d/network.conf << 'EOF'
net.core.rmem_default = 262144
net.core.rmem_max = 16777216
net.core.wmem_default = 262144
net.core.wmem_max = 16777216
net.ipv4.tcp_congestion_control = cubic
net.core.netdev_max_backlog = 65535
EOF

# 应用网络参数
sysctl -p /etc/sysctl.d/network.conf

存储池优化：

# 调整存储池参数
ceph osd pool set rbd size 3
ceph osd pool set rbd min_size 2
ceph osd pool set rbd pg_num 256
ceph osd pool set rbd pgp_num 256

# 配置缓存池
ceph osd pool create rbd-cache 64
ceph osd tier add rbd rbd-cache
ceph osd tier cache-mode rbd-cache writeback
ceph osd tier set-overlay rbd rbd-cache
ceph osd pool set rbd-cache size 10000000000
ceph osd pool set rbd-cache min_read_recency_for_promote 2
ceph osd pool set rbd-cache min_write_recency_for_promote 2
ceph osd pool set rbd-cache cache_try_wont_fail true

磁盘优化：

# 调整 I/O 调度器
echo "deadline" > /sys/block/sdb/queue/scheduler
echo "deadline" > /sys/block/sdc/queue/scheduler

# 优化磁盘队列长度
echo "1024" > /sys/block/sdb/queue/nr_requests
echo "1024" > /sys/block/sdc/queue/nr_requests

效果验证：
- OSD 性能：所有 OSD 的利用率均降至 60% 以下
- 网络带宽：集群网络带宽使用率降至 70% 以下
- 内存使用：OSD 节点的内存使用率降至 60% 以下
- 磁盘I/O：OSD 磁盘的 I/O 等待时间显著减少
- 存储性能：写入速度提升 200%，读取速度提升 150%
- 系统稳定性：集群运行稳定，无故障发生

课后练习

练习1：Pacemaker 高可用集群性能优化

目标：优化一个 2 节点的 Pacemaker 高可用集群的性能。
要求：
- 监控集群当前性能
- 识别性能瓶颈
- 实施CPU、内存、网络、存储等方面的优化
- 验证优化效果
步骤：
- 准备 2 台 CentOS 7 服务器
- 安装 Pacemaker 和 Corosync
- 部署一个 Web 应用和数据库应用
- 监控集群性能
- 实施优化措施
- 验证优化效果

练习2：Kubernetes 集群性能优化

目标：优化一个 Kubernetes 集群的性能。
要求：
- 监控集群资源使用情况
- 识别性能瓶颈
- 实施节点资源、Pod 调度、网络、存储等方面的优化
- 验证优化效果
步骤：
- 准备 4 台 CentOS 7 服务器（1 个 master，3 个 worker）
- 安装 Kubernetes 集群
- 部署多个容器化应用
- 监控集群性能
- 实施优化措施
- 验证优化效果

练习3：Ceph 存储集群性能优化

目标：优化一个 Ceph 存储集群的性能。
要求：
- 监控集群状态和性能
- 识别性能瓶颈
- 实施 OSD、网络、存储池等方面的优化
- 验证优化效果
步骤：
- 准备 6 台 CentOS 7 服务器（3 个 monitor，3 个 OSD）
- 安装 Ceph 集群
- 部署存储池和测试数据
- 监控集群性能
- 实施优化措施
- 验证优化效果

练习4：Web 应用性能优化

目标：优化一个 Web 应用的性能。
要求：
- 监控 Web 应用的响应时间和吞吐量
- 识别性能瓶颈
- 实施 Web 服务器、数据库、缓存等方面的优化
- 验证优化效果
步骤：
- 准备 2 台 CentOS 7 服务器
- 安装 Nginx 和 MySQL
- 部署一个 Web 应用
- 监控应用性能
- 实施优化措施
- 验证优化效果

练习5：容器化应用性能优化

目标：优化一个容器化应用的性能。
要求：
- 监控容器的资源使用情况
- 识别性能瓶颈
- 实施容器配置、资源限制、网络等方面的优化
- 验证优化效果
步骤：
- 准备 2 台 CentOS 7 服务器
- 安装 Docker 和 Docker Compose
- 部署一个容器化应用
- 监控容器性能
- 实施优化措施
- 验证优化效果