生产环境异常捕获配置实战指南

线上服务突然卡顿？用户报错没人知道？

前几天朋友老张找我吐槽，他们公司官网半夜突然打不开，客户投诉一堆，运维凌晨两点还在查日志。一通折腾才发现是某个接口抛了异常，但没人及时收到通知。其实这种事完全能提前防住，关键就在生产环境的异常捕获配置。

别等出事才翻日志

很多团队平时不重视异常监控，总觉得“代码没问题”“上线前测过了”。可现实是，哪怕最简单的空指针，在高并发下也可能瞬间拖垮服务。真正靠谱的做法，是在生产环境把异常“抓”起来，第一时间知道哪里出了问题。

比如你在做电商系统，支付回调时突然少了个字段，没做兜底处理就会抛异常。如果没配置捕获，这个错误可能就默默写进日志文件，直到用户打客服电话才被发现。

怎么配置才算到位

核心思路就三点：捕获、上报、告警。先在代码里把异常兜住，再发到监控平台，最后通过钉钉或短信提醒责任人。

以 Node.js 为例，可以在入口文件加个全局异常监听：

process.on('uncaughtException', (err) => {
  console.error('未捕获的异常:', err);
  // 发送到 Sentry 或自建监控系统
  reportToMonitoring(err, { level: 'critical' });
});

process.on('unhandledRejection', (reason) => {
  console.error('未处理的 Promise 拒绝:', reason);
  reportToMonitoring(reason, { level: 'error' });
});

Java 项目可以用 AOP 切面统一拦截 controller 层异常：

@ControllerAdvice
public class GlobalExceptionHandler {

    @ResponseBody
    @ExceptionHandler(Exception.class)
    public Result handleException(Exception e) {
        log.error(“系统异常”, e);
        monitoringService.report(e);
        return Result.fail(“系统繁忙”);
    }
}

别只盯着代码，中间件也得看

除了应用层，Redis 连不上、MySQL 慢查询、消息队列堆积，这些都算异常。可以用 Prometheus + Grafana 搭套监控体系，把关键指标全盯上。比如 Redis 连接池使用率超过80%就触发告警，别等到连接耗尽才手忙脚乱。

还有个小技巧：在 Nginx 日志里加个状态码统计，每天跑个脚本看看 5xx 出现次数。哪怕没崩，持续的小毛病也可能预示大问题。

告警不是越多越好

有人一上来就把所有 warn 都塞进钉钉群，结果三天后大家直接屏蔽消息。正确的做法是分等级：error 级别走电话+短信，warn 级别汇总成日报邮件发送。不然真出大事时，没人会注意到那条被淹没的警告。

你也可以给不同业务线设不同策略。比如登录模块出异常必须秒级响应，而后台导出功能可以容忍几分钟延迟。

把异常捕获当成日常习惯，就像出门前检查门锁。系统稳了，半夜才能睡踏实。

生产环境异常捕获配置：让系统问题无处藏身

线上服务突然卡顿？用户报错没人知道？

别等出事才翻日志

怎么配置才算到位

别只盯着代码，中间件也得看

告警不是越多越好