监控指南¶
文档版本: 1.0.0
最后更新: 2025-08-19
Git 提交: 87d3bddc
作者: Lincoln
JAiRouter 提供了全面的监控功能,包括系统指标收集、Prometheus 集成、Grafana 仪表板和告警配置。本指南将帮助您了解和使用 JAiRouter 的监控功能。
快速开始¶
启动监控栈¶
Windows¶
Linux/macOS¶
访问监控界面¶
- JAiRouter 应用: http://localhost:8080
- Prometheus: http://localhost:9090
- Grafana: http://localhost:3000 (admin/admin)
- 指标端点: http://localhost:8080/actuator/prometheus
监控架构¶
graph TB
subgraph "JAiRouter 应用"
A[HTTP 请求] --> B[指标拦截器]
B --> C[指标收集器]
C --> D[Micrometer 注册表]
D --> E[Prometheus 端点]
F[后端调用] --> C
G[负载均衡器] --> C
H[限流器] --> C
I[熔断器] --> C
end
subgraph "监控栈"
J[Prometheus] --> E
K[Grafana] --> J
L[AlertManager] --> J
end
subgraph "仪表板"
M[系统概览]
N[业务指标]
O[基础设施]
P[性能分析]
end
K --> M
K --> N
K --> O
K --> P
监控功能概览¶
系统指标¶
- JVM 内存使用情况
- 垃圾回收统计
- HTTP 请求统计
- 线程池状态
业务指标¶
- AI 模型调用统计
- 服务类型分布
- 用户会话跟踪
- 请求响应时间
基础设施指标¶
- 负载均衡器状态
- 限流器事件统计
- 熔断器状态变化
- 后端服务健康状态
文档导航¶
配置指南¶
使用指南¶
- Grafana 仪表板 - 仪表板使用和自定义
- 指标参考 - 所有可用指标的详细说明
运维指南¶
高级主题¶
关键指标快速参考¶
系统健康¶
# 服务可用性
up{job="jairouter"}
# 请求错误率
sum(rate(jairouter_requests_total{status=~"5.."}[5m])) / sum(rate(jairouter_requests_total[5m]))
# P95 响应时间
histogram_quantile(0.95, sum(rate(jairouter_request_duration_seconds_bucket[5m])) by (le))
业务指标¶
# 模型调用成功率
sum(rate(jairouter_model_calls_total{status="success"}[5m])) / sum(rate(jairouter_model_calls_total[5m]))
# 活跃用户会话数
sum(jairouter_user_sessions_active)
基础设施¶
支持和反馈¶
如果在使用监控功能时遇到问题,请:
- 查看相关文档的故障排查部分
- 检查应用日志和监控服务日志
- 验证配置文件的正确性
- 联系开发团队获取技术支持
注意: 监控功能会对系统性能产生一定影响,建议在生产环境中根据实际需求调整采样率和缓存配置。