故障排查¶

文档版本: 1.0.0
最后更新: 2025-08-19
Git 提交: c1aa5b0f
作者: Lincoln

本节提供了 JAiRouter 常见问题的解决方案和故障排查指南，帮助用户快速定位和解决系统运行中遇到的各种问题。

故障排查概述¶

当 JAiRouter 出现问题时，建议按照以下系统化的方法进行排查：

排查流程¶

快速诊断 - 检查服务基本状态和连通性
日志分析 - 查看应用日志和错误信息
性能监控 - 分析系统资源使用和性能指标
配置验证 - 检查配置文件和参数设置
深入调试 - 使用专业工具进行详细分析

诊断工具¶

健康检查端点: /actuator/health
监控指标端点: /actuator/metrics
配置信息端点: /actuator/configprops
日志文件: logs/jairouter-debug.log

问题分类¶

按严重程度分类¶

严重问题 - 服务完全不可用，影响所有用户
重要问题 - 部分功能异常，影响部分用户
一般问题 - 性能下降或偶发异常
轻微问题 - 日志警告或配置建议

按问题类型分类¶

启动问题 - 应用启动失败或异常退出
连接问题 - 后端服务连接失败或超时
性能问题 - 响应慢、资源占用高或吞吐量低
配置问题 - 配置错误、不生效或冲突
功能问题 - 负载均衡、限流、熔断等功能异常

故障排查指南¶

常见问题 ¶

收集了使用过程中最常遇到的问题及其解决方案，包括： - 启动失败和配置错误 - 连接超时和网络问题 - 内存泄漏和性能下降 - 负载均衡和限流配置问题

性能问题排查 ¶

专门针对性能相关问题的诊断和优化指南： - 响应时间过长的分析和优化 - 吞吐量不足的原因和解决方案 - 内存和 CPU 使用过高的处理 - JVM 调优和系统优化策略

调试指南 ¶

提供详细的调试技巧和工具使用方法： - 开发和生产环境的调试配置 - 日志分析和网络调试技巧 - JVM 内存和线程调试方法 - 响应式编程的调试策略

快速诊断检查清单¶

基础检查¶

[ ] 服务是否正常启动 (curl http://localhost:8080/actuator/health)
[ ] 端口是否正常监听 (netstat -tlnp | grep :8080)
[ ] 配置文件格式是否正确
[ ] Java 版本是否符合要求 (Java 17+)

连接检查¶

[ ] 后端服务是否可达
[ ] 网络防火墙是否阻止连接
[ ] DNS 解析是否正常
[ ] SSL 证书是否有效

性能检查¶

[ ] CPU 使用率是否正常 (< 80%)
[ ] 内存使用率是否正常 (< 85%)
[ ] 响应时间是否在预期范围内
[ ] 错误率是否在可接受范围内 (< 1%)

配置检查¶

[ ] 服务实例配置是否正确
[ ] 负载均衡策略是否合适
[ ] 限流参数是否合理
[ ] 熔断阈值是否适当

监控和告警¶

关键监控指标¶

# 服务健康状态
curl http://localhost:8080/actuator/health

# 请求统计
curl http://localhost:8080/actuator/metrics/jairouter.requests.total

# 响应时间
curl http://localhost:8080/actuator/metrics/jairouter.request.duration

# JVM 内存使用
curl http://localhost:8080/actuator/metrics/jvm.memory.used

# 系统 CPU 使用
curl http://localhost:8080/actuator/metrics/system.cpu.usage

告警阈值建议¶

响应时间: P95 > 5s 告警，P95 > 10s 严重告警
错误率: > 1% 告警，> 5% 严重告警
CPU 使用率: > 80% 告警，> 90% 严重告警
内存使用率: > 85% 告警，> 95% 严重告警

故障处理流程¶

1. 问题报告¶

收集详细的错误信息和环境描述
记录问题发生的时间和频率
保存相关的日志和配置文件

2. 初步诊断¶

使用快速诊断检查清单进行基础检查
查看监控指标识别异常模式
分析日志文件定位错误原因

3. 深入分析¶

根据问题类型选择合适的调试工具
进行详细的性能分析或网络诊断
必要时启用详细日志记录

4. 解决方案实施¶

根据分析结果制定解决方案
在测试环境验证修复效果
在生产环境谨慎实施修复

5. 验证和总结¶

验证问题是否完全解决
更新监控和告警策略
记录问题和解决方案供后续参考

预防措施¶

配置管理¶

使用版本控制管理配置文件
建立配置变更审核流程
定期备份重要配置数据

监控体系¶

建立完善的监控指标体系
设置合理的告警阈值
定期检查监控系统的有效性

容量规划¶

定期评估系统容量需求
进行性能压力测试
制定扩容和优化计划

运维流程¶

建立标准化的运维流程
定期进行故障演练
持续改进问题处理效率

获取帮助¶

如果按照本指南仍无法解决问题，可以通过以下方式获得帮助：

社区支持¶

查看 GitHub Issues 中的已知问题
搜索相关的讨论和解决方案
参与社区讨论获得建议

问题报告¶

使用问题报告模板提交新的 Issue
提供详细的环境信息和错误日志
包含复现步骤和期望行为描述

文档资源¶

专业支持¶

联系项目维护团队
寻求专业的技术支持服务
参加相关的培训和研讨会

记住，大多数问题都有解决方案，关键是采用系统化的方法进行诊断和处理。