专栏名称: 码小辫
给程序员和编程爱好者分享计算机编程电子书以及相关的学习资源
今天看啥  ›  专栏  ›  码小辫

服务挂了让人焦绿,聊聊自动恢复和保留现场

码小辫  · 公众号  ·  · 2024-07-22 11:00

文章预览

最近,mdnice的后台服务挂了,整个服务不可用,这种情况其实是非常少见的,近几年随着用户量的增多,后台服务有做负载均衡,发布时机器屏蔽等工作,最大程度保证服务的可用性,但还是出现了问题 1 问题发现 通常后台服务有1台机器出现问题时,云服务的负载均衡器会进行告警,但是当天的告警迟了一些才出现,所以最先得到问题反馈是从用户群里面得知,目前无法正常写作了 得知问题后看了一下负载均衡器,发现服务器全部异常,之前出现过单台异常的情况,这种情况下重启单台服务器就好了,没想到这次全都挂掉了 发现问题后没有太多思考的时间,首先要做的就是及时止损,迅速恢复服务,于是马上重启了所有的机器上的服务,重启后观察日志正常,证明故障恢复了,然后开始复盘问题 2 问题复盘 首先查了下日志,发现故障当时是由 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览