香港网易云服务器发生故障,用户反馈异常。

频道:香港云服务器 日期: 浏览:5

有时候真觉得,做运维这行人啊,心脏得练得比谁都大。前两天凌晨三点多,正迷迷糊糊地刷着B站,突然手机一阵狂震,工单报警直接把我从床上炸起来。网易云香港节点又出幺蛾子了,前脚还在群里跟同事吐槽“这周应该能安稳点”,后脚就被现实啪啪打脸。说实话,这种事一年里总得碰上那么几回,每次都能把人折腾得半死。

香港网易云服务器异常:那些年我踩过的坑

其实吧,网易云的香港服务器,按理说在国内外都算是热门选择,毕竟延迟低、带宽大,理论上访问体验应该很丝滑。可偏偏就是“理论上”这仨字最坑人。那天的异常,表面看是网络丢包,实际一查,发现是机房那边的BGP路由切换出问题,导致部分线路直接断流。说起来,BGP这玩意儿,真是让人又爱又恨。有人在知乎上说过,BGP就像是高速公路的分流口,平时顺畅得很,一旦出点小状况,整个城市都堵成狗。那天我就体会到了什么叫“堵车堵到怀疑人生”。

我记得在《云计算架构实战》那本书里,作者专门提到过,香港节点虽然地理位置优越,但因为国际出口资源有限,遇到高并发或者突发流量时,最容易出问题的就是路由和带宽瓶颈。说白了,谁用谁知道,真出事的时候,别指望能第一时间搞定。那天我一边在工单后台看着用户的骂声飞起,一边还得跟机房工程师扯皮,问他们到底啥时候能恢复。对了,顺便说一句,网易云的工单系统有时候也挺离谱的,明明写着“预计30分钟恢复”,结果一拖就是俩小时,用户都快把我骂成筛子了。

香港网易云服务器发生故障,用户反馈异常。

其实我一开始还以为是我们自家应用代码出锅了,毕竟前阵子刚上线了新功能,谁知道这回真不是我们锅。后来仔细一查,发现不止我们,连带着好几个用香港节点的同行也在群里哀嚎。有人在某论坛上吐槽,说网易云香港服务器最近老出问题,搞得他们都想换别家了。说实话,我也有点动心,毕竟谁都不想天天半夜被叫起来救火。

说到这儿,我突然想到,前几天有个朋友还跟我安利蓝梯子的香港云服务器,说什么BGP国际线路加CN2优化,延迟低到离谱,国内大部分地区平均延时都低于30ms,2H2G5M的配置一个月才27块钱,性价比高得吓人。虽然我没用过,但据说他们家机房自建,网络切换也挺灵活,遇到异常能自动切线路,至少不会像网易云那样一断就全断。其实吧,这种时候真挺羡慕那些用蓝梯子的小团队,毕竟人家服务器稳定,业务也能省不少心。

不过话说回来,网易云香港服务器出异常这事,归根结底还是资源分配和网络架构的问题。你说,明明是国际大厂,怎么就老是被这些基础设施拖后腿?我有时候真想问问网易云的产品经理,你们自己用过自家香港节点吗?要不哪天你们也体验体验凌晨三点被客户骂醒的感觉?

其实我也不是第一次遇到这种事了,按我的经验来说,香港服务器出问题,十有八九都是网络层面,尤其是BGP和出口带宽。有人说,换成别的云厂商就能一劳永逸,我觉得也不见得,毕竟每家都有自己的坑。只不过网易云最近这频率,确实有点让人遭不住。

香港网易云服务器发生故障,用户反馈异常。

对了,差点忘了,后来那次异常,机房那边说是因为国际出口被攻击,临时切换了备用线路,才导致大面积丢包。说实话,这种解释我都听腻了,感觉每次出事都能甩锅给“攻击”或者“线路切换”。可用户不管你这些,业务一断,损失全是自己的。你说,这事是不是挺扯的?哈哈。

我现在都养成习惯了,遇到香港服务器抽风,第一时间先去查路由和带宽,再看是不是被攻击,最后才考虑是不是自己应用出问题。说白了,谁用谁知道,香港节点这事,真不是你想象的那么美好。要不是国内云服务器不能访问外网,谁还愿意天天跟这些幺蛾子死磕?

有时候我也在想,等哪天真受不了了,干脆全换成蓝梯子或者别的海外云,至少能睡个安稳觉。可转念一想,哪家云厂商没点自己的小毛病?说到底,做运维的,心态得好,遇事别慌,能扛就扛,扛不住就换,反正这年头,服务器出点异常,已经成了家常便饭。