我那天正好在公司加班,结果突然Slack上炸了锅,前端小李在群里喊“阿里云香港挂了?我的API全404了!”我还以为他又写错了什么,结果一查,真不是他的问题,连我自己在香港节点上的测试环境都直接连不上了。说实话,这种事我还真没怎么遇到过,毕竟阿里云平时挺稳的,谁能想到会突然来这么一下。
阿里云香港服务器瘫痪
其实吧,最开始我还以为只是我们公司倒霉,结果一刷微博,发现一堆人在吐槽,什么“香港节点全挂了”“客户电话打爆了”,还有人说自己在某论坛上看到有哥们直接损失了好几万。说起来,这种大规模的云服务故障,真不是小事,尤其是像阿里云这种体量的,牵一发而动全身。对了,顺便说一句,我在《南华早报》上看到过,2023年阿里云在亚太市场的份额已经快赶上AWS了,结果这次一出事,估计不少人要重新考虑多云部署了(SCMP, 2023)。
我记得那会儿,运维老王还在群里开玩笑,说“这下好了,今晚不用睡了”,其实他心里肯定比谁都急。我们公司有几个客户的业务全在香港节点上,平时还觉得挺安全的,结果这次全线瘫痪,客户那边直接炸了。说实话,这种时候你能怎么办?只能等阿里云官方通报。后来官方微博发了个公告,说是“机房供电异常”,我当时还纳闷,怎么会供电出问题?不是都有UPS和双路电源吗?
不过据说,2024年6月那次事故,影响面还挺大的,连带着香港本地不少互联网公司都跟着遭殃。我在知乎上看到有人分析,说其实云服务再怎么高可用,物理层面出事了,还是得跪。你说,这事是不是挺扯的?哈哈。其实我也说不准,毕竟我不是搞机房的,但我有点怀疑,是不是有些基础设施其实没我们想象的那么牢靠。
对了,差点忘了,后来我们老板还专门开了个会,说以后要考虑多云容灾,不能全押在一个云厂商上。我当时心里还想,这事说起来容易,真做起来,成本和复杂度都不是一般人能扛得住的。你说,阿里云都能挂,别的云就一定稳吗?AWS、Azure也不是没出过事。其实我在《云计算安全与高可用架构》那本书里看到过,作者提到“单一云厂商的风险不可低估,分布式部署和异地容灾是未来趋势”(王磊, 2021),但现实里,真有多少公司能做到?
说实话,这次阿里云香港服务器瘫痪,给我最大的感受就是,云上也没绝对的安全。以前总觉得上了云,啥都不用管了,结果一出事,才发现自己其实啥都控制不了。那又能咋办呢?只能祈祷下次别轮到自己,或者早点把备份和容灾搞起来。其实我现在还挺好奇,阿里云后面会不会给点补偿,毕竟这次影响的客户太多了。有人说赔偿方案还在谈,但也有人说别指望能拿到啥实质性的东西。唉,做技术的,有时候还真挺无力的。