“你们香港节点又挂了!”我刚泡好一杯咖啡,Slack上就弹出运维小李的消息。说实话,这种事已经不是第一次了,但每次还是能让我心里咯噔一下。阿里云香港服务器死机这事儿,真是让人又爱又恨。其实我一开始选香港节点,图的就是个“离岸速度快”,结果没想到,死机的速度也挺快。
阿里云香港服务器死机
说起来,第一次遇到死机那会儿,我还以为是自己代码写炸了。那天凌晨两点,客户突然说网站打不开。我一边骂骂咧咧重启Nginx,一边怀疑是不是自己哪个定时任务没关好。结果SSH都连不上,控制台点进去一看,状态直接灰了。那一刻我真有点怀疑人生。后来才知道,原来不是我一个人,整个工单区都在刷屏“香港节点挂了”。
其实吧,阿里云香港机房的网络波动和死机问题,圈里人都知道。有人说是因为带宽紧张,也有人说是因为DDoS攻击太多。上次在V2EX上看到一哥们吐槽,说他买的轻量应用服务器,三天两头死机,工单回复永远是“已知问题,正在修复”。我当时还笑他倒霉,没想到自己也中招。
对了,顺便说一句,我在知乎上搜过,有人分析说阿里云香港节点其实是租用的第三方机房,物理资源有限,遇到高峰期就容易崩。这个说法我没法证实,但看着每次死机都集中在流量高峰,也不是没道理。还有一次,阿里云官方微博发了个公告,说“受不可抗力影响,部分香港节点服务异常”,我当时就想,这“不可抗力”到底是啥?台风?还是电力?
不过话又说回来,死机归死机,阿里云的售后倒是挺快的。每次工单一提,十分钟内就有客服回我,虽然内容大多是“我们已知晓,正在处理”,但至少态度还行。只是吧,问题总是反复出现,久而久之我也有点麻木了。有人说用腾讯云香港会好点,我也试过,结果发现其实都差不多。说实话,香港这块地儿,云服务商都挺难的。
我记得在《云计算架构技术与实践》这本书里,作者提到过,云服务器的高可用性其实很大程度上取决于底层物理资源和网络环境(王伟, 2019)。这话我现在算是体会到了。你说,咱们做开发的,天天想着怎么写高可用的代码,结果服务器说挂就挂,真是有点无力。
其实我也不是没想过备份方案。后来我搞了个自动快照,每天凌晨备份一次。可有时候死机的时候,连快照都恢复不了。那种时候,我就只能干瞪眼。说起来,前几天还看到阿里云社区有人发帖,说香港节点死机后,数据丢了,客服只赔了点代金券。你说,这事是不是挺扯的?哈哈。
不过我也不是完全抱怨,毕竟价格便宜,速度快,偶尔死机……好像也只能认了。要不然,换回国内节点?可备案又麻烦。哎,做技术的,有时候真是两头堵。其实我现在都习惯了,遇到死机,先去工单区看看大家是不是都挂了,然后泡杯茶,等着恢复。你说,这算不算一种成长?
0 留言