专注业务稳定性提升的技术交流平台。分享领先的、可参考的、可落地的实战经验。
今天看啥  ›  专栏  ›  TakinTalks稳定性社区

亿级流量下的故障事前预防:B站如何从0-1构建变更防控体系?

TakinTalks稳定性社区  · 公众号  ·  · 2024-08-01 11:29
    

文章预览

# 一分钟精华速览 # 大约70%的故障都是由变更引起的,B站也深受其害。在经历了多起由变更引发的事故后,B站设计并实施了变更防控平台,从技术支撑能力、技术落地、跨领域赋能、组织文化建设等多方面入手,以期变被动应对为主动防御。目前,该平台已接入60+平台、400+场景,每天执行超过1000次变更检测,日拦截100+次潜在故障。自平台上线后,B站变更类事故占比得到有效下降,实现业务稳定性和效率的双重提升。详细的解决策略和方法,请参阅文章正文。 作者介绍  哔哩哔哩平台工程负责人——刘昊  TakinTalks稳定性社区特邀专家,哔哩哔哩平台工程负责人。从业十余年,专注于运维效能、质量运营等领域。2017年加入哔哩哔哩,先后负责了B站运营研发、中间件研发和SRE体系等方向,构建了B站的统一作业 & 流程 & 鉴权服务,主导了数据库 & 缓 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览