有时候真觉得,做运维这行人,心脏得练得比谁都大。前两天刚好赶上阿里云香港服务器宕机那一波,真是有点想摔鼠标。说起来,宕机这种事,谁都不想碰上,但偏偏它就像感冒一样,防不胜防。那天我还在群里跟同事扯皮,突然一堆报警短信轰炸过来,什么“服务不可用”“连接超时”,我一看IP,心里咯噔一下:完了,香港节点又出事了。
阿里云香港服务器宕机:一场说来就来的“灾难”
其实我一开始还以为是我们自家代码又抽风了,毕竟前阵子刚上线一堆新功能,bug多得像下雨天的蚂蚁。结果一查,工单区、知乎、甚至微博都炸了,大家都在问“阿里云香港挂了?”我还记得有个哥们在某乎上吐槽:“每次搞活动,服务器就跟着罢工,阿里你是故意的吗?”说实话,这种阴谋论我是不太信的,但宕机这事,确实让人挺无语。 对了,顺便说一句,阿里云香港区其实一直挺受欢迎的,主要是带宽大、延迟低,尤其是做跨境电商、游戏、直播的那帮人,基本都在用。可惜好景不长,宕机一来,什么“高可用”“多活架构”都成了笑话。那天我还在想,难道真得像《Site Reliability Engineering》里说的那样,得有心理准备,任何系统都会挂?不过话又说回来了,谁家云厂商没出过事?AWS、Azure、腾讯云,哪个不是年年有大新闻。 我记得2023年阿里云香港区就有过一次大面积故障,据《南华早报》(South China Morning Post, 2023)报道,当时影响了不少金融和电商客户。那次我还没赶上,这次算是亲身体验了。说实话,宕机那会儿,客户电话打爆,老板在群里连发十几个问号,我脑子里只剩下一个念头:赶紧切流量,能救多少救多少。可惜,DNS切到新加坡,延迟飙到三百多毫秒,用户体验直接掉到谷底。你说,这事是不是挺扯的? 有人说,云上高可用就是个伪命题。其实我觉得也不全是,关键看你怎么设计。比如有个朋友在AWS上搞了多活,香港、新加坡、东京三地互为备份,结果这次阿里云挂了,他那边屁事没有。可我们小公司,预算有限,能上个异地冷备就不错了。说起来,真羡慕那些大厂,钱多任性,想怎么搞都行。 不过说真的,阿里云这次宕机,官方的通报倒是挺快的,半小时内就发了公告,说是“网络设备故障”,还承诺赔偿。可赔偿那点钱,跟业务损失比起来,根本不值一提。有人在群里调侃:“赔你一杯奶茶,损失一单生意。”我当时还真笑不出来。 其实吧,宕机这事,归根结底还是概率问题。你再怎么防,也有百密一疏的时候。就像我在《Google SRE手册》里看到的那句话:“希望不是策略。”你不能指望运气好就没事,得有预案,有演练。可说起来容易,真做起来,哪有那么多时间和资源?我有时候真觉得,做技术的人,活得太累了。 对了,刚才差点忘了说,宕机那天我还在外面吃饭,手机一震,饭都没吃完就跑回公司。后来想想,真不值。生活和工作,怎么就这么难分开呢?不过话说回来,谁让咱干这行呢?有时候还挺佩服自己,能在一堆故障里活下来。 唉,写着写着好像有点跑题了。其实我也说不准,阿里云下次还会不会再挂。反正现在每次上线新服务,我都得多留个心眼,备份、监控、预案,能做的都做了。剩下的,就只能听天由命了。你说,这是不是有点宿命论?不过,谁让咱是运维呢。