香港阿里云服务器故障,用户反馈异常。

频道:香港云服务器 日期: 浏览:1

我那天正好在公司加班,结果微信突然“叮”了一下,运维群里炸开了锅,说香港阿里云服务器挂了。我一开始还以为谁又在开玩笑,毕竟阿里云这种大厂,怎么可能说挂就挂?结果一刷新监控,真的是一片红,连平时最稳的那台数据库都没了心跳。说实话,那一瞬间我脑子里就只剩下“完了”两个字。

香港阿里云服务器挂了

其实吧,阿里云出问题也不是第一次了,去年双十一前后也有过一次小范围的故障,不过那次没波及到我们香港节点。可这次不一样,直接影响到我们几个核心业务,客户电话都快被打爆了。说起来,前几天我还在知乎上看到有人讨论“云服务到底靠不靠谱”,底下有个叫“老王的云笔记”的哥们说,云服务再牛也有物理极限,尤其是跨境节点,网络和电力都不完全受控,谁也不敢拍胸脯保证100%不出事。

我记得《云计算安全与隐私保护》那本书里有一章专门讲过云服务的单点故障问题(Wang, Q., Ren, K., & Lou, W. (2010). Cloud computing: Security and privacy issues. In Proceedings of the 2010 IEEE International Conference on Cloud Computing),说白了,云不是万能的,尤其是遇到大规模网络波动或者机房事故,分分钟全线崩溃。那天我还在想,咱们是不是太依赖云了?

香港阿里云服务器故障,用户反馈异常。

不过说真的,阿里云香港节点这次挂掉,影响面比我想象的大多了。我们公司有几个客户是做东南亚电商的,平时就靠香港节点做中转,结果一挂,订单全卡住。那会儿我还在想,要不赶紧切回国内节点?可一查,数据同步根本来不及,临时切换风险更大。你说,这事是不是挺扯的?哈哈,平时都说多活多活,真到关键时刻,谁敢拍板?

对了,顺便说一句,后来我在阿里云官方论坛上看到,有人说是因为机房电力故障导致的,具体原因官方也没说清楚。有人猜测是DDoS攻击,也有人说是光缆被挖断了,反正众说纷纭。其实我也不太信DDoS,毕竟阿里云的防护能力还是有的,除非真的是物理层面出问题。

我有时候会想,咱们这些搞技术的,天天说高可用、容灾、备份,结果一遇到这种大规模云服务故障,还是只能干瞪眼。那天我同事小李还吐槽,说以后是不是得备一台本地服务器,关键时刻能顶上?我当时还笑他杞人忧天,现在想想,好像也不是没道理。

香港阿里云服务器故障,用户反馈异常。

其实刚才我还漏了个事,那天晚上我们几个技术在群里讨论,有人提议以后多做异地多活,甚至考虑多云部署。可说实话,预算和人力都有限,真要做起来,老板能同意才怪。说到底,云服务再怎么宣传高可用,出事的时候,背锅的还是我们这些一线技术。

我现在回头想想,香港阿里云服务器挂了这事,算是给我提了个醒。以后再有人问我云服务靠不靠谱,我大概会说,靠谱是靠谱,但你最好别全指望它。万一哪天又挂了,别说我没提醒你。