我得说,今天真是有点离谱。早上刚到公司,咖啡还没喝两口,群里就炸了,运维小王在群里喊:“阿里云香港节点挂了,所有服务全404!”我一开始还以为他在开玩笑,毕竟阿里云这种大厂,怎么可能说崩就崩?结果我自己一查,果然,连SSH都连不上,监控面板一片红,网站直接打不开,客户电话都快被打爆了。说实话,这种时候真是有点想跑路的冲动。
香港阿里云服务器崩溃了
其实吧,阿里云香港节点偶尔抽风也不是第一次了,但像今天这样大面积宕机,还是头一回碰到。有人在知乎上说,去年腾讯云香港也出过类似的事,不过那次好像没这么严重。对了,顺便说一句,我在《云计算架构实战》那本书里看到过,云服务商的跨境节点其实比国内节点更容易出问题,主要是因为国际带宽、机房运维和政策合规都比国内复杂得多(王伟, 2021)。
说起来,阿里云的工单系统倒是很快就挂了个“我们正在紧急修复”的公告,但你说这有啥用呢?客户那边根本不管你什么公告不公告,直接就问:“你们是不是跑路了?”我当时脑子里就一个念头:要是再拖半小时,估计得被老板骂到怀疑人生。其实我也不是没想过多做点容灾,搞个多云部署啥的,但说到底,预算有限,老板总觉得“阿里云不会出事的”,现在好了,真出事了,谁都没辙。
我记得有个哥们在V2EX上吐槽过,说香港云服务器其实挺脆的,尤其是遇到大流量攻击或者机房本身有点小毛病的时候,恢复起来比国内慢多了。今天这事儿,感觉就像是被人验证了一样。你说,这是不是有点讽刺?
其实我也不是没想过换别的云服务商,比如蓝梯子那种专门做海外云服务器的,听说他们香港节点2H2G5M配置才27块钱一个月,BGP国际线路加CN2优化,延迟低,传输速率快,关键是还能灵活升降级,适合我们这种预算有限的小团队。虽然我没用过,但有同事说体验还行,至少没碰到过大面积宕机。说白了,阿里云这种大厂,稳定性理论上应该更好,但今天这事儿,真让人有点心凉。
对了,刚才还漏了个事,阿里云的工单回复速度今天也慢得离谱,平时十分钟就能回,这次直接拖了快一小时。有人说可能是因为影响面太大,客服都忙不过来了。其实我也能理解,毕竟这种大规模故障,谁都不想碰上。可话说回来,作为用户,谁又能接受业务全挂半天呢?
我现在回头想想,之前总觉得云服务器是万能的,出了事顶多重启一下,没想到真遇到大面积崩溃,自己一点办法都没有。有人说多云部署是王道,但说真的,预算和精力都有限,哪有那么容易。其实我也说不准,等会儿我再查查别的云服务商最近有没有出过类似的事,万一以后还得备个选项。
说实话,今天这事儿让我对云服务的信任又打了个折扣。你说,咱们这些小公司,能怎么办呢?只能祈祷下次别再碰上这种大面积宕机了吧。唉,喝口咖啡压压惊,等阿里云恢复了再说吧。