Zipkin 中文教程

1. 项目概述

Zipkin 是一个开源的分布式追踪系统，由 Twitter 开发并捐赠给 Cloud Native Computing Foundation (CNCF)。它专为监控和排查微服务架构中的性能问题而设计，提供了分布式事务的追踪、性能监控和故障排查能力。

主要功能

分布式事务追踪：跟踪请求在微服务架构中的完整调用链
性能监控：识别系统瓶颈和性能问题
服务依赖分析：可视化服务间的调用关系
根因分析：快速定位故障源头
多维度数据：支持按服务、操作、标签等多维度分析
实时数据：提供近实时的追踪数据
历史数据：支持存储和查询历史追踪数据
告警集成：与 Prometheus 等告警系统集成

技术栈特点

用 Java 语言编写，稳定可靠
基于 Dapper 论文设计
支持多种存储后端：Elasticsearch、Cassandra、MySQL
水平可扩展：支持集群部署
与 Kubernetes 深度集成
支持多种采集方式：HTTP、Kafka、RabbitMQ

适用环境

微服务架构
分布式系统
云原生环境
容器化应用

2. 安装与配置

2.1 快速启动（开发环境）

使用 Docker 运行 Zipkin：

docker run -d \n  --name zipkin \n  -p 9411:9411 \n  openzipkin/zipkin:2.24.0

2.2 生产环境安装

2.2.1 使用 Helm 安装到 Kubernetes

helm repo add openzipkin https://openzipkin.github.io/zipkin-helm
helm repo update
helm install zipkin openzipkin/zipkin

2.2.2 自定义部署

生产环境中，Zipkin 通常采用以下组件：

Zipkin Collector：接收和处理追踪数据
Zipkin Query：提供查询和 UI 服务
Zipkin Storage：存储追踪数据（如 Elasticsearch、Cassandra）
Zipkin Dependencies：计算服务依赖关系

2.3 基本配置

2.3.1 环境变量配置

# 使用 Elasticsearch 存储
docker run -d \n  --name zipkin \n  -p 9411:9411 \n  -e STORAGE_TYPE=elasticsearch \n  -e ES_HOSTS=http://elasticsearch:9200 \n  openzipkin/zipkin:2.24.0

# 使用 Cassandra 存储
docker run -d \n  --name zipkin \n  -p 9411:9411 \n  -e STORAGE_TYPE=cassandra \n  -e CASSANDRA_CONTACT_POINTS=cassandra:9042 \n  openzipkin/zipkin:2.24.0

# 使用 MySQL 存储
docker run -d \n  --name zipkin \n  -p 9411:9411 \n  -e STORAGE_TYPE=mysql \n  -e MYSQL_HOST=mysql \n  -e MYSQL_TCP_PORT=3306 \n  -e MYSQL_USER=zipkin \n  -e MYSQL_PASS=zipkin \n  openzipkin/zipkin:2.24.0

2.3.2 配置文件

# zipkin-server.yml
server:
  port: 9411

zipkin:
  storage:
    type: elasticsearch
    elasticsearch:
      hosts: http://elasticsearch:9200
      index: zipkin
      index-shards: 5
      index-replicas: 1

  collector:
    sample-rate: 1.0
    http:
      enabled: true
    kafka:
      enabled: false
    rabbitmq:
      enabled: false

  query:
    enabled: true
    timeout: 10s

  dependencies:
    enabled: true
    period: 1h

3. 基本使用

3.1 启动 Zipkin

# 启动 Zipkin 容器
docker run -d --name zipkin -p 9411:9411 openzipkin/zipkin:2.24.0

# 访问 Zipkin UI
# 打开浏览器访问 http://localhost:9411

3.2 访问 Zipkin UI

Zipkin 启动后，可以通过 http://localhost:9411 访问 Zipkin Web UI。

3.3 集成应用

3.3.1 Java 应用集成

使用 Spring Cloud Sleuth 集成 Java 应用：

<!-- pom.xml -->
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-sleuth</artifactId>
</dependency>
<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-zipkin</artifactId>
</dependency>

# application.yml
spring:
  zipkin:
    base-url: http://localhost:9411
  sleuth:
    sampler:
      probability: 1.0 # 采样率

3.3.2 Node.js 应用集成

使用 zipkin-js 集成 Node.js 应用：

npm install zipkin zipkin-transport-http express-zipkin-tracing

// tracing.js
const { Tracer, ExplicitContext, BatchRecorder } = require('zipkin');
const { HttpLogger } = require('zipkin-transport-http');
const zipkinMiddleware = require('express-zipkin-tracing');

// 创建 Zipkin 记录器
const recorder = new BatchRecorder({
  logger: new HttpLogger({
    endpoint: 'http://localhost:9411/api/v2/spans'
  })
});

// 创建上下文
const ctxImpl = new ExplicitContext();

// 创建追踪器
const tracer = new Tracer({
  ctxImpl,
  recorder,
  localServiceName: 'my-service'
});

module.exports = {
  tracer,
  ctxImpl,
  zipkinMiddleware: zipkinMiddleware({
    tracer,
    serviceName: 'my-service'
  })
};

// app.js
const express = require('express');
const { zipkinMiddleware } = require('./tracing');

const app = express();

// 使用 Zipkin 中间件
app.use(zipkinMiddleware);

app.get('/', (req, res) => {
  res.send('Hello World!');
});

app.listen(3000, () => {
  console.log('Server listening on port 3000');
});

3.3.3 其他语言集成

Python：使用 py_zipkin 库
Go：使用 zipkin-go 库
.NET：使用 Zipkin.NET 库
Ruby：使用 zipkin-ruby 库

3.4 查看追踪数据

访问 Zipkin UI：http://localhost:9411
在 "Service Name" 下拉菜单中选择服务名称
在 "Span Name" 下拉菜单中选择操作名称
点击 "Find Traces" 按钮
查看追踪结果列表
点击单个追踪查看详细信息

3.5 基本查询

Zipkin UI 支持以下查询方式：

按服务和操作查询：选择服务和操作名称
按时间范围查询：设置开始和结束时间
按标签查询：使用标签键值对过滤
按追踪 ID 查询：直接输入追踪 ID
按注释查询：使用注释内容过滤

4. 高级特性

4.1 采样策略

Zipkin 支持多种采样策略：

概率采样：按固定概率采样
速率限制采样：限制每秒采样数量
边界采样：在服务边界进行采样决策
自定义采样：根据业务逻辑自定义采样策略

4.1.1 配置采样策略

Java 应用示例：

// 自定义采样器
@Bean
public Sampler<?> sampler() {
    return Sampler.create(0.1f); // 10% 采样率
}

Node.js 应用示例：

// 自定义采样器
const sampler = new ProbabilitySampler(0.1); // 10% 采样率

const tracer = new Tracer({
  ctxImpl,
  recorder,
  localServiceName: 'my-service',
  sampler
});

4.2 数据采集

Zipkin 支持多种数据采集方式：

HTTP：直接通过 HTTP 发送追踪数据
Kafka：使用 Kafka 作为消息队列
RabbitMQ：使用 RabbitMQ 作为消息队列
gRPC：使用 gRPC 发送追踪数据

4.2.1 配置 Kafka 采集

# 使用 Kafka 采集
docker run -d \n  --name zipkin \n  -p 9411:9411 \n  -e STORAGE_TYPE=elasticsearch \n  -e ES_HOSTS=http://elasticsearch:9200 \n  -e KAFKA_BOOTSTRAP_SERVERS=kafka:9092 \n  -e KAFKA_TOPIC=zipkin \n  openzipkin/zipkin:2.24.0

4.3 服务依赖分析

Zipkin 提供了服务依赖分析功能，通过分析追踪数据自动计算服务间的依赖关系：

访问 Zipkin UI：http://localhost:9411
点击顶部菜单的 "Dependencies"
查看服务依赖图
可选择时间范围查看不同时期的依赖关系

4.4 与 Prometheus 集成

Zipkin 可以与 Prometheus 集成，实现基于追踪数据的告警：

启用 Zipkin 的 Prometheus 指标
配置 Prometheus 抓取 Zipkin 指标
创建基于追踪数据的告警规则

# prometheus-alerts.yaml
groups:
- name: zipkin-alerts
  rules:
  - alert: HighTraceErrorRate
    expr: |
      sum(rate(zipkin_collector_spans_total{status="ERROR"}[5m])) by (service_name) / sum(rate(zipkin_collector_spans_total[5m])) by (service_name) > 0.1
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "High error rate in traces"
description: "Service {{ $labels.service_name }} has error rate of {{ $value }} in traces"

  - alert: SlowTraceDuration
    expr: |
      histogram_quantile(0.95, sum(rate(zipkin_collector_span_duration_seconds_bucket[5m])) by (service_name, operation_name, le)) > 1
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Slow trace duration"
description: "Operation {{ $labels.operation_name }} in service {{ $labels.service_name }} has 95th percentile duration of {{ $value }} seconds"

4.5 性能优化

4.5.1 存储优化

使用适当的存储后端：生产环境推荐使用 Elasticsearch 或 Cassandra
配置索引生命周期：设置适当的索引保留时间
调整批量大小：优化 Collector 的批量处理大小
使用采样：合理配置采样策略，减少存储压力

4.5.2 Collector 优化

水平扩展：部署多个 Collector 实例
使用消息队列：配置 Kafka 或 RabbitMQ 作为缓冲
优化批处理：调整批处理大小和间隔

4.5.3 客户端优化

批量发送：配置适当的批处理大小
压缩数据：启用数据压缩
合理采样：设置适当的采样率
异步发送：使用异步方式发送追踪数据

5. 最佳实践

5.1 追踪设计

为每个服务设置有意义的名称：便于在 Zipkin UI 中识别
为每个操作设置有意义的名称：如 HTTP 方法 + 路径
添加有意义的标签：如用户 ID、订单 ID、错误类型等
保持跨度粒度适当：不要创建过多或过少的跨度
记录关键事件：如数据库查询、外部 API 调用、业务逻辑决策

5.2 集成策略

使用框架集成：优先使用框架提供的集成方案（如 Spring Cloud Sleuth）
补充手动追踪：对关键业务逻辑添加手动追踪
标准化上下文传播：确保所有服务使用相同的上下文传播机制
统一采样策略：在整个系统中使用一致的采样策略

5.3 数据管理

设置合理的保留期：根据业务需求和存储成本设置
使用索引模板：为 Elasticsearch 设置适当的索引模板
监控存储使用：定期监控存储使用情况
备份重要数据：对重要的追踪数据进行备份

5.4 告警策略

基于关键指标：如错误率、P95 响应时间
设置合理的阈值：避免误报
分级告警：根据严重程度设置不同级别的告警
与其他监控系统集成：如 Prometheus、Grafana

5.5 安全最佳实践

保护 Zipkin UI：添加认证和授权
加密传输：使用 TLS 加密数据传输
限制访问：只允许必要的人员访问 Zipkin
敏感数据处理：避免在追踪中存储敏感信息

6. 实际应用场景

6.1 微服务架构监控

使用 Zipkin 监控微服务架构的完整调用链：

场景：一个电商系统，包含用户服务、订单服务、支付服务、库存服务等多个微服务。

追踪流程：

用户请求 POST /api/orders 创建订单
订单服务调用用户服务验证用户信息
订单服务调用库存服务检查库存
订单服务调用支付服务处理支付
订单服务更新订单状态
订单服务返回响应给用户

查询与分析：

查看完整调用链：在 Zipkin UI 中通过追踪 ID 查看完整的调用链
识别瓶颈：查看每个服务的响应时间，识别性能瓶颈
分析依赖关系：通过服务依赖图分析服务间的依赖关系
排查错误：当出现错误时，通过追踪数据快速定位错误源头

6.2 性能问题排查

使用 Zipkin 排查系统性能问题：

场景：系统响应时间突然增加，需要快速定位原因。

排查步骤：

在 Zipkin UI 中查询最近的追踪数据
按响应时间排序，找到最慢的请求
查看慢请求的详细调用链
分析每个服务的响应时间，识别瓶颈服务
查看瓶颈服务的内部操作，定位具体问题
实施优化措施
验证优化效果

6.3 服务依赖分析

使用 Zipkin 分析服务间的依赖关系：

场景：需要了解系统中服务间的调用关系，优化系统架构。

分析步骤：

访问 Zipkin UI 的 "Dependencies" 页面
查看服务依赖图，了解服务间的调用关系
分析依赖图，识别：
- 强依赖服务
- 循环依赖
- 过度依赖的服务
- 未使用的服务
根据分析结果优化系统架构

6.4 多环境对比

使用 Zipkin 对比不同环境的性能：

场景：需要对比开发、测试、生产环境的性能差异。

对比步骤：

在不同环境部署相同的 Zipkin 配置
执行相同的测试场景
在 Zipkin UI 中查询并导出追踪数据
对比不同环境的：
- 响应时间分布
- 错误率
- 服务调用次数
- 资源使用情况
分析差异原因，优化环境配置

7. 总结

Zipkin 是一个功能强大、稳定可靠的分布式追踪系统，它为微服务架构和分布式系统提供了全面的可观测性解决方案。通过本文的介绍，您应该已经了解了 Zipkin 的核心概念、安装配置、基本使用和高级特性。

关键优势

开源免费：作为 CNCF 项目，完全开源免费
稳定可靠：用 Java 语言编写，经过大规模生产验证
标准兼容：基于 Dapper 论文设计，支持 OpenZipkin 标准
可扩展性：支持水平扩展，适合大型系统
生态丰富：与 Spring Cloud、Kubernetes 等工具无缝集成
易于使用：提供直观的 UI 和丰富的查询功能

应用场景

微服务架构监控和故障排查
分布式系统性能分析
服务依赖关系分析
多环境性能对比
DevOps 持续监控

Zipkin 与 Prometheus、Grafana 等工具结合使用，可以构建完整的可观测性平台，帮助您更好地理解和优化系统性能，提高系统的可靠性和可用性。