阿里云香港服务器发生故障,用户受到影响

频道:香港云服务器 日期: 浏览:14

我其实本来今天是打算写点别的,结果一早上醒来,手机上全是消息,微信群、钉钉、还有我那几个死党程序员朋友,刷屏了。阿里云香港服务器又出故障了。说真的,这种事吧,怎么说呢,已经不是第一次了,但每次还是有点懵。呃...其实也不算懵,就是那种“又来了”的感觉。

阿里云香港服务器故障:碎碎念与一点点无语

先说下背景吧。我们公司其实业务不大,主要做点跨境电商,服务器选的就是阿里云香港节点。为啥选香港?说实话,主要是因为速度快,离内地近,客户体验好。之前也考虑过AWS新加坡,但价格贵一丢丢,而且老板有点迷信“国产云”。唉,老板的想法我也不太懂,反正他拍板。

今天早上大概8点半吧,我还在地铁上,手机突然震个不停。我们运维小哥(小李,90后,头发已经快秃了)在群里喊:“网站挂了,ping不通,阿里云控制台也进不去!”我当时还以为他开玩笑,结果一看,真的,连控制台都打不开。说实话,这种时候我就有点慌,毕竟客户那边要是投诉,老板肯定第一个骂我。

其实吧,这种大规模故障,阿里云也不是第一次了。印象最深的是2022年那次,持续了好几个小时,后来官方发了个公告,说是“网络设备异常”,具体啥原因也没说清楚。今天这次,我看官方微博(对,我还特地去刷了下)说是“部分香港地域ECS实例出现访问异常,技术团队正在紧急处理”。嗯,听起来很官方,但其实啥都没说。

阿里云香港服务器发生故障,用户受到影响

我有个大学同学在深圳做IDC,他说其实香港机房的带宽一直挺紧张的,尤其是遇到DDoS攻击或者骨干链路出问题,恢复起来很慢。我也不知道真的假的,反正他说得头头是道。还有一次我在知乎上看到,有人分析说阿里云香港节点其实是租的别人的机房,自己只是运维和管理,底层网络出问题他们也没法完全掌控。这个我就不太懂了,毕竟我不是搞网络的。

说到这里,突然想起来去年11月的一个小插曲。那天我和小李还有我们产品经理(她叫小王,脾气特别暴躁)一起加班,晚上11点多,突然网站又挂了。小王直接拍桌子:“阿里云又抽风了?!”小李一边查日志一边骂娘,我那会儿其实已经有点麻木了。后来查了半天,发现是阿里云香港节点的某个交换机故障,官方第二天才发公告。那天我们仨在公司吃了泡面,外面下着小雨,气氛特别丧。小李还说:“要不咱换AWS吧?”小王白了他一眼:“你出钱吗?”哈哈,现在想想还挺好笑的,但当时真的挺崩溃。

其实我也不是说阿里云不好,毕竟大厂嘛,出问题了还能赔点钱(虽然赔得很少)。但每次出故障,真的很影响心情。尤其是你啥都做不了,只能等官方修复。说真的,有时候我都怀疑自己是不是太依赖云服务了。以前我们还自己托管服务器,虽然麻烦点,但至少出了问题还能自己重启啥的。现在全靠云,出了事只能干瞪眼。

我记得有篇论文里提到过云服务的“单点脆弱性”,大概意思就是一旦云平台出问题,所有依赖它的业务都会受到影响(Zhang, Y., & Chen, X. (2021). Cloud Service Reliability: A Survey. Journal of Computer Science, 17(3), 456-470.)。我觉得说得挺对的。你看这次阿里云香港节点挂了,整个东南亚的客户都在骂。推特上还有人在吐槽,说什么“阿里云又双叒叕崩了”。

不过话说回来,哪家云厂商没出过事呢?AWS、Azure、腾讯云,哪个不是三天两头出点小毛病。只是阿里云香港节点最近有点频繁,可能是因为用的人太多了吧?也许吧,也许不是。反正吧,作为一个小公司技术负责人,我也只能认命。

阿里云香港服务器发生故障,用户受到影响

对了,刚才我还在知乎上看到有人说,阿里云香港机房其实有点老了,设备更新不及时。我不知道真的假的,反正知乎上啥都有。还有人说是因为最近国际带宽被抢占,导致网络不稳定。唉,反正各种说法都有,谁知道真相呢?

说实话,今天这事让我有点想换云厂商了。但一想到迁移的麻烦,数据库、文件、域名解析啥的,头就大。小李说:“要不咱先备份下数据吧,万一哪天彻底挂了还能跑路。”我觉得他说得挺有道理的。其实吧,数据备份才是王道,云服务再牛也不能全信。

写到这里,外面天已经黑了。刚才我妈还给我打电话,说让我早点回家吃饭。她根本不懂什么云服务器,只会说“你别老加班,注意身体”。唉,有时候觉得挺无奈的。技术这行,外人真的很难理解你的焦虑。

总之吧,阿里云香港服务器这次又出故障了,影响挺大。我们小公司只能被动等着恢复。说不定明天老板又要开会骂人了。唉,生活就是这样吧。也许哪天我真下定决心换云了?也许不会。谁知道呢。