生产级可观测性指标体系设计
构建一 套生产级可观测性体系,核心不在于"指标越多越好",而在于**"分层监控,重点突出"**。
根据 Google SRE 推崇的 "RED" 和 "USE" 方法论,准备以下 4 个层级 的核心指标。这套指标体系配合 Go-Zero + OpenTelemetry + K8s 简直是绝配。
第一层:业务关键指标 (Business Metrics)
这是给老板和产品经理看的。 如果这层挂了,技术指标再好看都没用。
| 指标名称 | 含义 | 为什么重要 | 数据来源 |
|---|---|---|---|
| 核心业务量 | 如:每分钟下单数、支付成功数、短信发送数 | 直观反映业务是否"活着"。如果突然归零,这就是最高级(P0)事故 | 手动埋点 (OTel Metrics) |
| 业务成功率 | (成功订单 / 总请求) | 排除 HTTP 500,业务逻辑上的失败(如余额不足、库存不足)也要关注 | 手动埋点 |
| 业务转换漏斗 | 浏览 -> 加购 -> 下单 -> 支付 | 监控每一步的流失率是否异常 | 前端/后端埋点 (PostHog/Umami) |