专栏名称: 宝塔面板
装机量超过1000万台的服务器安全运维管理软件,运维要高效,装宝塔。
今天看啥  ›  专栏  ›  宝塔面板

8.9 堡塔核心业务断网故障复盘

宝塔面板  · 公众号  · 互联网安全  · 2024-08-29 12:00
    

主要观点总结

本文介绍了关于一起服务器事故及其处理过程的详细信息。

关键观点总结

关键观点1: 事故原因

堡塔核心业务服务器所在机房楼层被运营商断网,导致业务无法访问。

关键观点2: 影响范围

主要影响新注册、安装面板的用户,已安装面板及服务的用户不受影响。

关键观点3: 事故时间

总故障时长为16小时20分钟,从2024年8月9日10:20开始,至2024年8月10日2:40恢复。

关键观点4: 故障应急响应和处理过程

从确认故障、启动应急响应机制,到组建应急响应小组、制定恢复方案、执行恢复操作,以及后续的故障排查和整改等。

关键观点5: 处理过程中出现的问题

包括机器上架后网线未经测试、VLAN配置重置延迟、接线表错误导致网络故障排查时间长、设计迁移方案时未考虑到机房人手不足的问题,以及虚拟资产登记不清晰等问题。

关键观点6: 下一步的整改方案

包括建设点对点专线实现异地容灾、拆解业务并解耦、迁移到支持IPv6的高防机柜,以及重新设计资产管理流程等。


文章预览

事故情况介绍 1. 事故原因 堡塔核心业务服务器所在机房楼层被运营商断网,导致堡塔核心业务无法访问。 2. 影响范围 影响新注册、安装面板的用户,不影响已安装面板及服务的用户使用。 3. 事故时间 总故障时长 :16小时20分钟 开始时间 :2024-08-09 10:20 恢复时间 :2024-08-10 2:40 故障应急响应和处理过程 1. 应急响应  10:20:堡塔核心业务无法访问 10:25:确认为机房故障,短时间无法恢复,启动应急响应机制[级别:02] 10:30:转移www.bt.cn解析到可用节点,发布故障及维护页面 10:40:紧急组建应急响应小组到位,确认受影响范围 11:00:派出运维团队到机房待命 12:00:故障时间超过70分钟,根据机房反馈无法确认恢复时间,调整应急响应至[级别:03] 13:00:完成2个恢复方案的制定;并开始执行: 方案A,向原运营商提交机柜下架申请,如果1小时内能找到可用 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览