专栏名称: 唐韧
前非著名程序员,现不知名产品人。畅销书《产品经理必懂的技术那点事儿》作者。喜欢聊聊产品、说说职场、谈谈个人成长!
今天看啥  ›  专栏  ›  唐韧

网易云音乐崩了!

唐韧  · 公众号  · 科技自媒体 互联网短视频  · 2024-08-20 13:05

主要观点总结

网易云音乐发生线上重大事故,服务器持续宕机两个多小时,导致所有终端无法正常使用。团队迅速响应并在微博上发布声明,称是由于基础设施故障导致。事故恢复后,用户发现服务时好时坏,这其实是CDN网络重新循环的问题。对于此次事故,网易云音乐给出用户补偿方案为7天会员权益。相比其他产品的大事故补偿,这个方案稍显不足。

关键观点总结

关键观点1: 重大线上事故概述

网易云音乐因基础设施故障导致服务器宕机两个多小时,所有终端无法使用。

关键观点2: 网络猜测与实际情况

对于事故原因,网上有诸多猜测,包括程序员删数据库、服务器机房着火、黑客攻击等。但作者认为这些原因可能性较小,更可能是基础设施故障。

关键观点3: 基础设施故障的难度

基础设施故障(如操作系统、硬件、网络等)问题修复较为棘手,因为涉及到底层技术和架构。

关键观点4: 用户补偿与对比

网易云音乐给出7天会员权益作为用户补偿。相较于其他产品的大事故补偿(如语雀送出6个月会员服务),这个方案稍显不足。

关键观点5: 宏观与微观产品的认知

产品不仅是信息、交互、功能、业务、商业的集合体,还需要理解微观和宏观层面的产品认知。


文章预览

昨天,网易云音乐出了个重大线上事故,产品持续宕机两个多小时,所有终端都无法正常使用。 这事儿很快就上了热搜,打开网易云音乐 PC 页面显示「服务器拥挤」,App 显示「请求超时」。 网站页面显示的是 500 错误,但通过浏览器控制台可以看到,请求反馈状态码是 502。 简单说,就是网易云音乐的服务器挂了。 为了稳定局面,网易云音乐团队很快在微博上发了声明,给出的理由是「基础设施故障」。 本以为问题会被很快修复,没想到,这一宕机就是两个多小时。 从下午三点一直到五点多才开始部分可用,且还不是很稳定,很多人在线围观网易云音乐救火。 这下,P0 级重大线上事故算是坐实了。 那么,这场堪称灾难级的线上事故到底是怎么产生的呢? 对此,网上有很多猜测,有说程序员删数据库跑路的,有说服务器机房着火的,还有说被 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览