错误处理怎么更健？

wen 实用脚本 2026-06-05 46

错误处理怎么更健壮？从崩溃到优雅，一套让系统“死不了”的生存法则

先讲一个真实场景：某电商平台双十一促销，用户下单时突然抛出 “500 Internal Server Error”，接着整个购物车页面白屏，事后排查发现，原因仅仅是第三方的物流接口返回了一个意料之外的空指针,而主流程代码中没有做任何兜底处理。

错误处理怎么更健？

健壮的错误处理不是“让代码不出错”，而是系统在出错时依然能给出合理响应、继续运行、并自动恢复，Google 的研究数据显示：70% 的生产事故源于未捕获的异常，而其中又有 80% 本可以通过简单的防御性编程避免。

很多人误以为“健壮”没有Bug”，但根据《Clean Code》的定义，健壮性指的是系统在异常输入、资源耗尽、外部依赖失败等非正常条件下，依然能保持行为可预测。

核心三原则：

一个反例：某支付系统在银行扣款接口超时时，直接抛出 HTTP 502 并回滚数据库，结果导致用户支付成功但订单未创建，售后投诉率飙升 300%，正确的做法是：返回“处理中”状态,异步补偿。

原始层：try-catch-finally 是基本功，但99%的人错误地只捕获了 Exception。正确做法：根据语言特性区分可恢复异常（如网络超时）和不可恢复异常（如数组越界）。
- Python 示例：except (ValueError, ZeroDivisionError) 细化到具体类型。
中间层：使用 Result 模式（如 Rust 的 Result<T, E> 或 Java 的 Optional），避免“Null 地狱”。
- 参考 Go 语言设计：result, err := doSomething() 强制处理错误。
外层：全局异常钩子，用于记录日志并返回友情提示（如“系统繁忙，请稍后再试”）,而非暴露堆栈。

断路器模式（Hystrix/Resilience4j）：当第三方服务连续失败（如5次超时），自动切换为快速熔断，直接返回缓存结果或错误码,避免雪崩。
限流+降级：滑动窗口算法防刷，当 QPS 超过阈值时自动返回“请求过多”的 HTTP 429,而不是让数据库死锁。

数据库操作：使用事务实现原子性，但注意开事务时间越短越好（不超过200ms），重试时采用指数退避（Exponential Backoff）机制,避免对数据库造成二次压力。
缓存穿透：当缓存中没有目标数据时，使用布隆过滤器拒绝压根不存在的 key,防止恶意查询直接打到数据库。

答：判断标准是“能否在本层处理”。

能处理（如缓存失效时手动刷新）：捕获后做降级处理，不向上层扩散。
不能处理（如数据库连接丢失）：抛给上层，让全局异常处理器统一返回友好提示。
反例：某些开发者习惯在所有方法上都加 try-catch(Exception),导致真正致命的错误被静默吞掉。

答：遵循 3±1 次法则。

答：分级存储 + 异步写入。

答：分场景提供不同粒度的信息。

用户端：只显示 “系统繁忙，请稍后再试” 或 ❌ 功能暂时不可用，绝不可暴露内部实现细节（如“ORA-00001 违反唯一约束”）。
API 接口：返回标准化的错误码（如 ERR_USER_NOT_FOUND）和简短的消息。
内部运维：写详细的错误日志（包含请求ID、参数、栈轨迹），用于事后排查。
黄金法则：不要让错误信息成为攻击入口（如泄露 SQL 语句）。