Skip to the content.

license github document chat

稳定性之于系统,就像健康之于人类,看起来重要不紧急,然而一旦失去,就追悔莫及。

稳定性是一切 0 前面的 1。

为什么要做这个专栏?

加入我们

框架目录

0. 故障案例

【必读】故障案例征集 & Demo 模板.md
【案例】Dubbo 稳定性:Nacos 注册中心可用性问题复盘
【案例】记一次线上内存报警排查过程

1. 事前防范

1.1 代码规约

1.2 变更管控

1.3 性能压测

1.4 混沌工程

混沌工程介绍与实践

1.5 风险预案

1.6 限流降级

流控降级最佳实践

1.7 业务隔离

2. 事中“止血”

2.1 监控告警

虾米SRE实践:监控体系升级之路
阿里云 ARMS 小程序监控进阶之路
饿了么监控系统 EMonitor 与 CAT 的对比
如何专业化监控一个Kubernetes集群
2021 Gartner APM 魔力象限解读
OPLG:新一代云原生可观测最佳实践

2.2 异常巡检

2.3 流量调度

2.4 资损防控

数据一致性检测应用场景与最佳实践

3. 事后诊断

3.1 系统诊断

So Hot?快给 CPU 降降温

3.2 JVM 诊断

3.2.1 异常诊断
OutOfMemoryError 常见原因及解决方法
StackOverFlowError 常见原因及解决方法
NoSuchMethodError 常见原因及解决方法
3.2.2 内存诊断
3.2.3 线程诊断
线程池满
死锁
3.2.4 GC 诊断
咱们从头到尾说一次Java垃圾回收

3.3 组件诊断

Dubbo 常见错误及解决方法
Nacos 常见问题及解决方法
Spring Boot 常见错误及解决方法
SchedulerX 常见问题及解决方法

3.4 在线诊断

Arthas

3.5 链路追踪

【剖析 SOFARPC 框架】之 SOFARPC 链路追踪剖析
如何检测Web服务请求丢失问题
让可观察性带上导航,快速发现和定位业务问题:OpenTracing上写入业务信息
开源自建/托管与商业化自研Trace,如何选择?
前后端、多语言、跨云部署,全链路追踪到底有多难?
链路分析 K.O “五大经典问题”
链路追踪(Tracing)其实很简单——分布式链路追踪的起源
链路追踪(Tracing)其实很简单——分布式链路追踪的诞生
链路追踪(Tracing)其实很简单——分布式链路追踪的应用与兴起
链路追踪(Tracing)其实很简单——分布式链路追踪的挑战与限制
链路追踪(Tracing)其实很简单——请求轨迹回溯
链路追踪(Tracing)其实很简单——多维链路筛选
链路追踪(Tracing)其实很简单——链路实时分析、监控与告警
链路追踪(Tracing)其实很简单——链路拓扑
链路追踪(Tracing)其实很简单——链路功能进阶指南
链路追踪(Tracing)其实很简单——全量存储? No! 按需存储? YES!.md

3.6 RootCause

系统黄金指标之延迟(Latency)指标的故障诊断

版本迭代

专栏建设

目录提纲

文档提纲(仅供参考)

友情链接