专栏名称: 哔哩哔哩技术
提供B站相关技术的介绍和讲解
今天看啥  ›  专栏  ›  哔哩哔哩技术

B站面向1-3-5-10的应急响应中心建设

哔哩哔哩技术  · 公众号  ·  · 2024-08-16 12:00

文章预览

背景 随着业务规模的不断扩张和日常需求的快速迭代,即使是最优秀的业务架构、最完善的生产体系也无法确保系统100%的可用性,参考墨菲定律,会出错的事总会出错,故障在生产环境中不可避免。为了在故障发生时能够快速定界定位,采取有效措施止损,避免同根因故障重复发生,我们需要对故障全生命周期进行统一管理。 故障应急体系一般包括以下环节,故障预防、故障发现、故障定位、故障恢复、故障复盘及改进,其中故障预防阶段可以参考 B站安全生产专项建设实践 ,这里不再赘述,本文将围绕故障发生后,对稳定性保障带来的挑战,如何去破局,以及如何沉淀建设平台能力,介绍B站面向故障的应急响应中心建设。 故障对稳定性保障的挑战 回顾我们过去一年比较典型的故障: 某非核心服务发版,不合理的调用方式,导致某L0核心服务 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览