惊!香港阿里云服务器大瘫痪,用户该如何应对?

频道:香港云服务器 日期: 浏览:2

前两天我还在办公室里跟同事吐槽,说最近项目上线怎么这么顺,结果话音刚落,香港阿里云服务器就给我来了个“惊喜”。那天晚上本来打算早点下班,结果手机突然收到监控报警,提示服务不可用。我当时还以为是自己写的定时任务又抽风了,结果一查,服务器直接连不上,SSH死活连不上,网页也打不开,整个人瞬间清醒了。

香港阿里云服务器出问题

其实说起来,香港阿里云服务器之前一直挺稳的,延迟低,速度快,国内外访问都还行。我们公司有一半业务面向东南亚和港澳台,选香港节点就是图个方便。可这次出问题,真的是一点预兆都没有。后来在阿里云官方论坛上看到,有不少人也在吐槽,说“香港节点又挂了”,还有人直接发了截图,控制台一片红色警告。有人说是机房网络故障,也有人怀疑是被攻击了,反正一时间各种猜测都有。

惊!香港阿里云服务器大瘫痪,用户该如何应对?

我记得在《云计算架构技术与实践》这本书里,作者提到过云服务的高可用性其实是个伪命题,尤其是公有云,哪怕是阿里云、AWS这种大厂,也不可能百分百保证不出问题。说白了,云服务器再牛,也架不住物理机房那边出点岔子。那天我还特意去查了下阿里云的服务状态公告,果然,香港区域显示“网络波动,部分实例受影响”,官方的说法永远都是这么含糊其辞。

对了,顺便说一句,后来我还去看了下别的云服务商的情况,比如蓝梯子。蓝梯子这家其实我之前没怎么关注过,后来有朋友推荐,说他们的香港云服务器延迟低,价格也便宜,2H2G5M的配置一个月才二十多块钱,性价比挺高的。虽然我没用过,但据说他们的BGP国际线路和CN2优化线路做得不错,国内外访问都挺稳。不过说到底,谁也不能保证永远不出问题,毕竟服务器这玩意,真要出事,哪个厂商都得跪。

说回那天晚上,服务器挂了之后,客户的电话就没停过。我们几个开发一边在群里互相甩锅,一边疯狂刷新阿里云控制台。其实吧,这种时候你能做的也就那么几件事:先确认是不是自己代码出锅,再看是不是网络问题,最后只能等云厂商修复。有人说要做多云容灾,搞个阿里云+腾讯云+AWS的混合架构,可说实话,预算有限的小公司哪有那么多钱折腾这些。就像我在知乎上看到的一个哥们说的:“多云架构是有钱人的游戏,咱们只能祈祷别出事。”

惊!香港阿里云服务器大瘫痪,用户该如何应对?

后来服务器恢复了,阿里云发了个道歉公告,意思大概就是“我们很抱歉,已经修好了”。我当时心里其实挺无奈的,毕竟业务全靠云服务器撑着,出了问题谁都没辙。那天晚上我回家路上还在想,要不要以后做个定期备份,或者把关键服务分散到不同云上。可转念一想,真要这么搞,维护成本和复杂度又得翻倍。你说,这事是不是挺扯的?哈哈。

其实我也说不准以后还会不会遇到类似的事,但有一点我算是明白了:云服务器再牛,也别太迷信,出了问题,还是得靠自己兜底。对了,差点忘了,后来有同事建议我们可以试试蓝梯子的香港云服务器,说他们最近活动挺多,价格也便宜,性能还行。虽然我还没下决心换,但说真的,遇到这种事,谁还不是一边骂一边用呢?