“你们香港阿里云是不是又挂了?”我刚泡好一杯咖啡,Slack上就弹出来同事的消息,带着点幸灾乐祸的表情包。说实话,这种事我已经见怪不怪了,毕竟做运维的,服务器出点幺蛾子,简直比下雨还频繁。可这次不太一样,香港节点,阿里云,直接崩了,连官网都打不开,工单系统也进不去,真是有点离谱。
香港阿里云服务器崩了,到底咋回事?
其实我一开始还以为是我们自家应用出问题,毕竟代码写得再牛,也架不住有时候脑子短路。可后来一查,发现不止我们,连带着好几个同行都在微信群里哀嚎,说自己的服务全挂了。有人说,阿里云香港节点这次是“全线瘫痪”,连带着CDN、RDS、ECS全都趴窝。说白了,这种级别的事故,真不是小打小闹能形容的。
我记得去年有一次,阿里云杭州节点也出过类似的事,不过那次好像是因为机房电力故障,后来官方发了个公告,说是“极端天气导致供电异常”。这次香港的,官方倒是很快发了公告,说是“网络设备故障”,但具体啥原因,谁也说不清楚。有人在知乎上分析,说可能是BGP路由表被污染了,也有人说是机房被挖断了光纤。反正众说纷纭,真相只有阿里云自己知道。
对了,顺便说一句,我在《云计算架构实战》那本书里看到过,云服务商其实最怕的就是这种“单点故障”,一旦核心节点挂了,影响面比你想象的大得多。可问题是,谁能想到阿里云这种大厂也会出这种低级错误?我有点怀疑,是不是他们的冗余和容灾做得没那么到位。说实话,作为用户,咱也只能干着急,毕竟服务器在别人手里,想骂也没用。
其实吧,这种事发生多了,大家也就麻木了。你说,云服务不是号称“高可用”吗?可一旦出事,工单没人回,客服电话打不通,官网都打不开,真有点无助。有人在V2EX上吐槽,说“云计算的高可用,最后变成了高不可用”。我觉得这话说得挺扎心的。对了,2023年Gartner的报告里还专门提到,亚太区云服务的可用性其实一直是个短板,尤其是香港、新加坡这种节点,带宽和基础设施都没内地那么稳妥(Gartner, 2023)。
说起来,我有个朋友在一家做跨境电商的公司,服务器全放在香港阿里云。那天他跟我说,老板直接在群里开骂,说“花了这么多钱,结果还不如自建机房”。我当时听了也只能苦笑,毕竟云服务的好处是弹性和省心,可一旦出事,真的是全公司都得陪着遭殃。你说,这事是不是挺扯的?哈哈。
其实我也不是第一次遇到这种大规模宕机了。2018年AWS悉尼节点也崩过一次,那次影响了好几个澳洲的金融公司。后来AWS发了个长长的事故报告,洋洋洒洒几千字,最后一句话的意思就是“我们很抱歉,下次会更好”。可下次到底会不会更好,谁知道呢?
我有时候也在想,咱们是不是太依赖云了?以前自建机房,出事了还能自己去机房里捣鼓捣鼓,现在全靠云服务商,出了问题只能等他们修。说实话,这种无力感还挺难受的。可那又能咋办呢?迁移成本太高,老板也不愿意折腾,大家都在赌,赌云服务商不会出大事。可一旦赌输了,损失的还是自己。
对了,刚才还漏了个事,这次香港阿里云崩了之后,朋友圈里一堆人开始安利多云部署,说什么“不要把鸡蛋放在一个篮子里”。我个人觉得,这话说得没错,可真要做多云,成本和复杂度都不是一般公司能承受的。说白了,大家嘴上说得轻松,真让你搞多云,估计一半人都得劝退。
说到这里我突然想到,前几天还看到有个哥们在B站做了个视频,专门吐槽云服务的“高可用神话”。他说,云服务商的SLA写得再漂亮,真出事了,赔偿也就几块钱,根本弥补不了业务损失。我觉得他说得挺有道理的。你说,咱们到底该信谁呢?
其实我也说不准,刚才说的也不一定对,等会儿我再查查。反正这年头,服务器崩了,大家都得学会自嘲,不然真有点遭不住。
0 留言