Spring Boot应用监控指标收集及可视化方案-源码库

Spring Boot应用监控指标收集及可视化方案：从零搭建生产级监控体系

作为一名在微服务架构中摸爬滚打多年的开发者，我深知应用监控的重要性。记得有一次线上事故，由于缺乏有效的监控指标，我们花了整整半天才定位到问题所在。从那以后，我开始深入研究Spring Boot应用的监控方案，今天就来分享一套经过生产环境验证的完整监控体系搭建方案。

一、监控体系架构设计

在开始具体实现之前，我们先来理解整个监控体系的架构。我采用的方案是：Spring Boot应用通过Micrometer收集指标 -> Prometheus拉取指标 -> Grafana进行可视化展示。这套组合在实践中表现出色，既满足了实时监控需求，又具备良好的扩展性。

为什么选择这个组合？首先，Micrometer作为指标收集的门面，能够屏蔽不同监控系统的差异；Prometheus作为时序数据库，查询性能优秀；Grafana则提供了强大的可视化能力。三者结合，可谓监控领域的”黄金搭档”。

二、环境准备与依赖配置

首先，我们需要在项目中引入必要的依赖。在我的Spring Boot 2.7.x项目中，pom.xml配置如下：


    io.micrometer
    micrometer-registry-prometheus


    org.springframework.boot
    spring-boot-starter-actuator

这里有个小坑需要注意：不同版本的Spring Boot对Micrometer的支持有所差异，建议使用Spring Boot 2.3及以上版本，以获得更完善的功能支持。

三、应用配置与指标暴露

接下来配置application.yml文件，开启actuator端点并配置Prometheus：

management:
  endpoints:
    web:
      exposure:
        include: health,info,prometheus
  endpoint:
    prometheus:
      enabled: true
  metrics:
    export:
      prometheus:
        enabled: true
    tags:
      application: ${spring.application.name}

这里我特意加上了应用名称标签，这样在多个服务共用一个Prometheus时能够清晰区分指标来源。启动应用后，访问 http://localhost:8080/actuator/prometheus 就能看到暴露的指标数据了。

四、自定义业务指标收集

除了系统自带的指标，我们还需要收集业务指标。在我的电商项目中，需要监控订单创建的成功率：

@Service
public class OrderService {
    
    private final MeterRegistry meterRegistry;
    private final Counter orderCreateCounter;
    private final Timer orderCreateTimer;
    
    public OrderService(MeterRegistry meterRegistry) {
        this.meterRegistry = meterRegistry;
        this.orderCreateCounter = Counter.builder("order.create")
                .description("订单创建数量")
                .tag("type", "total")
                .register(meterRegistry);
                
        this.orderCreateTimer = Timer.builder("order.create.duration")
                .description("订单创建耗时")
                .register(meterRegistry);
    }
    
    public void createOrder(Order order) {
        Timer.Sample sample = Timer.start(meterRegistry);
        try {
            // 业务逻辑
            orderCreateCounter.increment();
            // 模拟业务处理
            Thread.sleep(100);
        } catch (Exception e) {
            // 错误处理
            meterRegistry.counter("order.create", "type", "error").increment();
        } finally {
            sample.stop(orderCreateTimer);
        }
    }
}

在实际使用中，我发现Timer非常适合监控方法执行时间，Counter则用于统计次数。通过合理的标签设计，我们可以对指标进行多维度分析。

五、Prometheus安装与配置

现在我们来部署Prometheus。我推荐使用Docker方式部署，简单快捷：

# 创建prometheus.yml配置文件
mkdir -p /opt/prometheus
cat > /opt/prometheus/prometheus.yml << EOF
global:
  scrape_interval: 15s

scrape_configs:
  - job_name: 'spring-boot-app'
    metrics_path: '/actuator/prometheus'
    static_configs:
      - targets: ['host.docker.internal:8080']
        labels:
          group: 'production'
EOF

# 启动Prometheus
docker run -d 
  --name=prometheus 
  -p 9090:9090 
  -v /opt/prometheus/prometheus.yml:/etc/prometheus/prometheus.yml 
  prom/prometheus

这里有个重要提示：在Docker环境中，需要使用host.docker.internal来访问宿主机上的应用。如果是生产环境，建议使用具体的IP地址或服务发现机制。

六、Grafana配置与仪表盘制作

同样使用Docker启动Grafana：

docker run -d 
  --name=grafana 
  -p 3000:3000 
  grafana/grafana

启动后访问 http://localhost:3000，默认账号密码都是admin。首次登录需要修改密码，然后按照以下步骤配置：

添加数据源：选择Prometheus，URL填写 http://prometheus:9090
导入仪表盘：我推荐使用ID为4701的JVM监控仪表盘
创建自定义仪表盘监控业务指标

对于业务指标，我创建了一个订单监控面板，关键查询语句如下：

# 订单创建速率
rate(order_create_total[5m])

# 订单创建成功率
1 - (rate(order_create_error_total[5m]) / rate(order_create_total[5m]))

# 订单创建P95耗时
histogram_quantile(0.95, rate(order_create_duration_seconds_bucket[5m]))