文章预览
大家好,我是白园。 作为一个 SRE 老兵,今天想给大家分享下「服务可靠性保障」的内容。 首先简单介绍下自己,2013 年我加入了百度运维部,负责百度网盘的可靠性保障工作,亲历了网盘可靠性保障体系从无到有、从粗糙到精细,从能发现故障到快速定位再到智能决策的整个过程。 2019 年短视频业务爆火,这时我加入了快手 SRE 团队,参与了快手春晚红包、海外版 kwaipro 的可靠性保障等工作,同时也了解到除网盘、地图之外的短视频、直播、电商等业务形态。 在这 11 年工作生涯中我始终站在一线,直面过无数次故障,每一次都是对业务的巨大考验。我乐于分享,也从中学习成长。在很多平台分享过各大厂 APP 故障解析和 SRE 核心技能,你或许也看过我分享的内容。 由于业务环境复杂多变/降本增效,近期各互联网大厂 APP 宕机事故频频发生,从社
………………………………