前两天我还在琢磨着怎么把客户的业务迁到阿里云香港节点,结果一觉醒来,微信群里全是“香港服务器挂了没?”“你那边能连上吗?”这种消息,真是有点懵。说实话,我一开始还以为是自己本地网络抽风,毕竟家里宽带最近老掉线,结果一查,工单区、知乎、甚至V2EX上都炸了锅,大家都在问阿里云香港节点是不是又出事了。
阿里云香港服务器异常
其实吧,这种事也不是第一次了。去年双十一前后,阿里云香港节点就有过一次大面积的网络抖动,我记得那会儿有个做跨境电商的朋友,直接被客户骂惨了。那哥们还跟我说,“你说这大厂,咋还不如小厂稳定?”我当时还挺不服气,觉得大概率是他自己配置有问题,结果这次我自己也中招了,脸都被打肿了。
说起来,阿里云香港节点的网络质量一直是个谜。有人说是因为带宽贵,阿里云舍不得多买;也有人说是因为国际出口被墙,反正各种说法都有。前几天我在知乎上看到一个自称是阿里云内部员工的家伙留言,说其实香港节点的网络架构和内地完全不一样,很多时候是被上游运营商卡脖子,阿里云自己也没啥办法。真的假的我也不知道,反正听着挺有道理的。
对了,顺便说一句,这次异常好像还挺离谱的,不光是网络慢,连控制台都登不上去。我有个客户的数据库直接连不上,业务全挂,电话打过来一顿骂,说什么“你不是说云上高可用吗?”我当时真是有点遭不住,心里还在想,要不以后还是多备一台本地服务器算了。其实我也知道,这种事谁也说不准,云厂商再大也有翻车的时候。就比如2021年AWS全球大面积宕机那次,全球都跟着遭殃,谁能想到呢?(Amazon Web Services, Inc. (2021). Summary of the AWS Service Event in the Northern Virginia (US-EAST-1) Region.)
不过说真的,阿里云香港节点的性价比确实高,尤其是对我们这些做外贸、跨境业务的,国内访问快,国外也还行,价格比AWS、GCP便宜不少。可惜就是不太稳定,时不时来这么一下,真让人头大。有人说用腾讯云香港节点会好点,我试过,感觉也就那样,反正都差不多,谁也别笑话谁。
我在《云计算架构技术与实践》这本书里看到过一句话,大意是“云计算的高可用性是相对的,不存在绝对的稳定”。其实想想也对,哪有啥绝对的事。只是客户不管你这些,业务挂了就是挂了,谁管你云厂商还是本地机房。说白了,做技术的有时候就是背锅侠,没办法。
还有一个事,差点忘了,这次异常之后,阿里云的工单回复速度慢得离谱,平时十分钟就能回,这次等了快俩小时才有动静。有人在论坛上吐槽,说是不是客服都下班了?我觉得也正常,毕竟一出事,工单量肯定爆炸,客服也得一个个回,谁让咱用的是公有云呢。
其实我现在也有点犹豫了,要不要把关键业务再做个多云容灾,或者干脆搞个混合云,反正不能全指望一个云厂商。可转念一想,预算又不够,老板还天天催着降本增效,真是左右为难。你说,这事是不是挺扯的?哈哈。
说到这里我突然想到,其实我刚才还漏了个事,这次异常之后,阿里云发了个公告,说是“部分用户受影响,正在紧急修复”,但到底啥原因,啥时候能好,压根没说清楚。有人说是DDoS攻击,有人说是机房断电,我看八成还是网络出口出问题。反正吧,等着呗,谁让咱用的是云呢。
我个人觉得,遇到这种事,除了多做备份、多做监控,真没啥好办法。要说完全避免,除非你自己建机房,那又能咋办呢?说实话,做技术的有时候真挺无力的。刚才说的也不一定对,等会儿我再查查,说不定明天又有新瓜出来。