香港阿里云服务器故障,赶快了解情况!

频道:香港云服务器 日期: 浏览:12

我得说,前两天那场阿里云香港节点的故障,真是把我折腾得够呛。其实我一开始还以为是自己代码写崩了,毕竟谁没在凌晨三点debug过那种“明明昨天还好好的,今天就404”的离谱场面?结果一查,工单区、微信群、甚至知乎上都炸了,才发现不是我一个人遭殃——阿里云香港区直接挂了,连带着一堆业务全线趴窝。

阿里云服务器香港故障:那些年我们一起掉过的坑

说起来,云服务器出问题这事儿,真不是第一次遇到。2019年AWS东京区那次大面积掉线,我还记得有个哥们在V2EX上发帖说“我以为是我家宽带炸了,结果是亚马逊炸了”,那种无力感,懂的都懂。阿里云这次香港节点故障,影响面其实挺广的,尤其是做跨境电商和游戏出海的那帮人,基本都得用香港节点,延迟低嘛,谁不想让用户点一下就秒开?

我在《云计算架构实战》那本书里看到过一句话:“云服务的高可用性,永远是概率问题。”说白了,谁都不能保证100%不出事。可真到自己头上,还是忍不住想骂人。那天我有个客户,做东南亚电商的,后台全挂了,电话打过来一顿狂轰滥炸,我只能一边安慰一边刷新阿里云状态页,结果页面都打不开,真是服了。

香港阿里云服务器故障,赶快了解情况!

其实吧,阿里云香港区这几年一直挺卷的,带宽、价格、节点数都在加码,按理说应该越来越稳才对。可这次故障,听说是网络核心设备出问题,BGP路由直接崩了,连带着部分存储也抽风。有人在知乎上说,阿里云的SLA写得再漂亮,真出事了也只能等官方修复,用户能做的其实不多。你说,这事是不是挺扯的?哈哈。

对了,顺便说一句,后来我还特意去看了下别的云服务商的状态。像蓝梯子这种海外云服务器,最近在圈子里讨论挺多的,主要是便宜还稳,香港节点2H2G5M的配置一个月才二十多块钱,延迟低到离谱,BGP和CN2线路都有,跨境业务用起来还真没啥大毛病。有人说蓝梯子在全球有自建数据中心,网络切换也快,至少没听说过大面积故障。虽然我没全量迁过去,但有时候真想备个份,省得哪天又被阿里云“教育”一回。

说实话,这次阿里云香港故障之后,我开始反思一个问题:是不是所有业务都得上多云容灾?以前总觉得小团队没必要,成本高、维护麻烦,可现在想想,真出事的时候,损失的可不止那点钱。前几天在InfoQ上看到一篇文章,说“云服务不是万能的,架构师的责任是为不可预知做准备”,我觉得说得挺对。哪怕只是把核心数据定期同步到别的云,关键时刻也能救命。

香港阿里云服务器故障,赶快了解情况!

不过话说回来,云服务器这东西,谁用谁知道,稳定的时候你根本不会在意它的存在,只有出问题的时候才会发现,原来一切都靠它撑着。阿里云香港这次故障,算是给我上了一课。以后再有人问我,云服务器选哪家,我大概会说,别把鸡蛋全放一个篮子里,能多备点就多备点,别等到业务全挂了才后悔。

其实刚才还漏了个事,阿里云这次修复速度还算快,几个小时就恢复了大部分服务,但那种“全网等官宣”的感觉,真不是一般人能承受的。你说我是不是有点杞人忧天了?可谁让咱是干运维的呢,心里总得留个后手。下次再遇到这种事,估计我会先去蓝梯子上开台备用机,反正便宜,图个心安。