主要观点总结
本文介绍了关于一起服务器事故及其处理过程的详细信息。
关键观点总结
关键观点1: 事故原因
堡塔核心业务服务器所在机房楼层被运营商断网,导致业务无法访问。
关键观点2: 影响范围
主要影响新注册、安装面板的用户,已安装面板及服务的用户不受影响。
关键观点3: 事故时间
总故障时长为16小时20分钟,从2024年8月9日10:20开始,至2024年8月10日2:40恢复。
关键观点4: 故障应急响应和处理过程
从确认故障、启动应急响应机制,到组建应急响应小组、制定恢复方案、执行恢复操作,以及后续的故障排查和整改等。
关键观点5: 处理过程中出现的问题
包括机器上架后网线未经测试、VLAN配置重置延迟、接线表错误导致网络故障排查时间长、设计迁移方案时未考虑到机房人手不足的问题,以及虚拟资产登记不清晰等问题。
关键观点6: 下一步的整改方案
包括建设点对点专线实现异地容灾、拆解业务并解耦、迁移到支持IPv6的高防机柜,以及重新设计资产管理流程等。
文章预览
事故情况介绍 1. 事故原因 堡塔核心业务服务器所在机房楼层被运营商断网,导致堡塔核心业务无法访问。 2. 影响范围 影响新注册、安装面板的用户,不影响已安装面板及服务的用户使用。 3. 事故时间 总故障时长 :16小时20分钟 开始时间 :2024-08-09 10:20 恢复时间 :2024-08-10 2:40 故障应急响应和处理过程 1. 应急响应 10:20:堡塔核心业务无法访问 10:25:确认为机房故障,短时间无法恢复,启动应急响应机制[级别:02] 10:30:转移www.bt.cn解析到可用节点,发布故障及维护页面 10:40:紧急组建应急响应小组到位,确认受影响范围 11:00:派出运维团队到机房待命 12:00:故障时间超过70分钟,根据机房反馈无法确认恢复时间,调整应急响应至[级别:03] 13:00:完成2个恢复方案的制定;并开始执行: 方案A,向原运营商提交机柜下架申请,如果1小时内能找到可用
………………………………