专注业务稳定性提升的技术交流平台。分享领先的、可参考的、可落地的实战经验。
今天看啥  ›  专栏  ›  TakinTalks稳定性社区

B站故障应急与业务1-5-10摸排:如何实现超95%故障自发现率?

TakinTalks稳定性社区  · 公众号  ·  · 2024-08-29 11:30
    

文章预览

# 一分钟精华速览 # B站稳定性建设虽持续进行,但SRE对稳定性的量化数据知之甚少,又不断面临故障处理时间长、应急响应机制不健全、重复故障频发等问题,迫切需要建立一个面向故障的,对故障全生命周期进行更加精细化的管理。在应急响应4.0阶段,通过建设直面故障的应急响应中心,B站核心业务摸排率已达80%+,增加监控100+,并完成了30+业务的改造工作。目前,2023下半年B站已实现了推搜业务故障自发现率95%+,社区相关故障自发现率80%+。详细的解决策略和方法,请参阅文章正文。 作者介绍  哔哩哔哩业务SRE负责人——张鹤  TakinTalks稳定性社区专家团成员,bilibili业务SRE负责人。2020年加入B站,负责哔哩哔哩业务稳定性保障相关工作,深度参与多活,活动保障,混沌工程,容量治理相关的建设,负责B站S赛、跨年晚会、拜年纪等相关活动的基 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览