文章预览
作者 | 凌敏 中午的麦当劳,人头攒动,顾客和外卖骑手焦急地等餐,服务人员忙碌地处理订单,后厨人员火热地备餐。在这样一个繁忙的时刻,如果点餐系统突然遇到技术故障,比如服务器响应缓慢或者数据库连接中断,那将是一个不小的挑战。 麦当劳希望通过故障模式和影响分析,以及引入混沌工程理念,以实验的方式来提前模拟并应对这种可能性。自 2023 年年底搭建混沌平台,开展混沌实验以来,麦当劳已经进行了数百次大大小小的混沌演练,各种高可用架构验证的混沌测试超过 500 次。在系统核心链路梳理和风险评估方面取得了显著成效,快速精准地识别风险点和故障场景。这些工作成功保障了包括 0531 麦麦对讲机抢购活动、88 金粉节、拍拍灯以及 BOB SLP 抢购等多档大型促销活动期间的系统稳定性,助力 IT 系统一次又一次地挑战流量高峰
………………………………