“阿里云香港服务器崩了”这事儿,真不是第一次听说。其实我前两天还在群里看到有人吐槽,说自己凌晨三点还在查网络,结果发现不是自己代码写挂了,是阿里云那边直接给你来个大惊喜。说实话,刚开始我还以为是他自己瞎折腾,毕竟他那台机器上啥都装,连个安全组都乱配,谁知道这次还真不是他的问题。
阿里云香港服务器崩了
我记得那天是周五,正好赶上我们要上线一个小功能,结果一大早就有同事在群里喊“香港节点全挂了,谁有备用方案?”我当时还在想,阿里云不是号称99.99% SLA吗?怎么说崩就崩了。后来我去查了下,发现不止我们,连隔壁公司也在微博上骂,说自己业务全挂,客户电话都快打爆了。你说这事儿怪谁?
其实吧,云服务这玩意儿,谁都知道没法百分百靠谱。之前我看过一篇《云计算的黑暗面》(The Dark Side of Cloud Computing, Smith, 2021),里面就说过,云厂商再大也有翻车的时候,尤其是跨境节点,网络一抖,啥都没了。那天我还特意去阿里云状态页看了下,果然,香港区域一片红,官方说是“网络波动”,但具体啥原因,半天也没个准信儿。
说起来,阿里云香港区一直挺受欢迎的,主要是带宽大,延迟低,国内外都能用。可惜这次崩了,大家才发现,原来鸡蛋都放一个篮子里,真出事了谁都跑不了。有人在知乎上说,自己买了多活架构,结果发现香港和新加坡一起挂,钱花了,还是没用。你说这事儿是不是挺离谱的?
对了,顺便说一句,我有个朋友在做游戏服,他那天直接被玩家骂惨了,充值不到账,数据丢了半天,最后只能赔一堆礼包。后来他跟我说,准备再搞个AWS做备份,阿里云这事儿让他彻底长记性了。其实我也有点后悔,之前图省事,所有服务都扔香港节点,结果这次全线趴窝,老板还以为我在摸鱼。
不过话说回来,谁能想到阿里云会崩呢?我记得有一年AWS也挂过,全球都炸了。那会儿我还在想,云服务商是不是都差不多,出事了都一个样。后来我在《云服务高可用架构实践》(王伟, 2022)里看到,有人建议多云部署,别全信一家。可问题是,预算有限,老板又不批钱,咋办?
其实我也说不准,阿里云这次到底是啥原因,反正官方说法总是模棱两可。有人说是DDoS,有人说是机房断电,还有人说是路由表出错。反正不管啥原因,倒霉的还是我们这些用云的。你说,这事儿是不是挺扯的?
我现在都开始怀疑人生了,是不是以后得自己搞个物理机放家里,至少崩了还能自己重启。可想想那电费和维护,算了,还是继续用云吧,谁让咱没那本事呢。说到底,云服务这东西,真是又爱又恨,崩了只能自认倒霉,谁让咱选了它呢。