文章预览
# 一分钟精华速览 # B站稳定性建设虽持续进行,但SRE对稳定性的量化数据知之甚少,又不断面临故障处理时间长、应急响应机制不健全、重复故障频发等问题,迫切需要建立一个面向故障的,对故障全生命周期进行更加精细化的管理。在应急响应4.0阶段,通过建设直面故障的应急响应中心,B站核心业务摸排率已达80%+,增加监控100+,并完成了30+业务的改造工作。目前,2023下半年B站已实现了推搜业务故障自发现率95%+,社区相关故障自发现率80%+。详细的解决策略和方法,请参阅文章正文。 作者介绍 哔哩哔哩业务SRE负责人——张鹤 TakinTalks稳定性社区专家团成员,bilibili业务SRE负责人。2020年加入B站,负责哔哩哔哩业务稳定性保障相关工作,深度参与多活,活动保障,混沌工程,容量治理相关的建设,负责B站S赛、跨年晚会、拜年纪等相关活动的基
………………………………