< 返回
回到主页
· 最新资讯
华为云宕机后的思考:如何应对访问故障的云服务?

4月10日,华为云在9点左右因“宕机”登上热搜。这是在疫情期间,号称“万物皆可云”的云服务产品“连环崩”事件中的又一知名案例。

一、华为云“宕机热榜”

华为云的“宕机热榜”相信大家都早清楚:4月10日上午8时起,华为云登录、管理后台开始无法访问,不断提示“服务器暂时超载/正在维护中/连接错误”;

broken image

华为云宕机

9点左右,“华为云崩了”“华为云挂了”等话题涌上热搜榜。

broken image

华为云崩溃引发网友热议

11点45分,华为云在官方微博发表声明,称基本业务已恢复。

broken image

华为云官方声明

然而在官方声明后,仍有不少用户表示“登录不上”;有些网友表示初步恢复到可登录的状态,但用户信息数据库连不上;甚至有些用户表示,数据库被混淆了……

二、云服务宕机“无一幸免”

事实上,近年来云服务宕机事件早已屡见不鲜:

broken image

百度资讯搜索

2019年,全球有影响力的云服务提供商均发生了“宕机事件”:谷歌云、AWS、微软Azure、阿里云、腾讯云等,几乎无一幸免。

美东时间2019年6月2日下午,大量用户反映谷歌邮件、谷歌云以及YouTube、Snapchat等应用软件系统速度缓慢,甚至无法登录,包括使用谷歌技术的苹果iMessage和iCloud。历经约4小时的宕机后,这些基于谷歌云技术的服务才恢复正常。此事故,导致宕机期间YouTube全球观看次数下降了10%,Google云存储的流量减少了30%。

broken image

谷歌宕机

2019年 5月 17日,华东区阿里云出现 3小时左右的故障,导致其服务的“移动推送”服务信息延时,令移动“以快著称”的资讯服务质量受到客户质疑。

此前3月2日晚,阿里云已有过一次突然崩溃,宕机约3小时,导致华北地区许多网站和App无法正常使用,传媒广告、体育直播、视频、软件服务等多个行业的用户全部被迫暂停业务。

broken image

阿里云宕机

此外著名的宕机事件还有:

2019年芝商所(CME)Globex平台出现宕机,导致无法正常交易;

Facebook及旗下多项服务出现技术故障,广告业务直接受到影响;

2018年日本软银故障造成约3000万软银用户无法正常通信;

腾讯云因硬盘故障导致一家初创公司数据丢失。

这样的事例不胜枚举。

三、云服务宕机为何“无法幸免”?

近年来,随着云计算的渗透,越来越多的机构、企业将自己的系统、数据搬上了“云”。然而,从近两年的云宕机事件来看,即便只是云服务上的一个小小宕机事件,都可能引发一场大灾难。

broken image

那么,云服务到底是否可以避免宕机?答案是:否。因为一个小小的云服务宕机背后,有着众多超出人力范畴的因素:

1. 硬件自身故障:为了维持相对低廉的成本,云服务商通常采用X86结构的服务器。这些服务器在较大负载的情况下,平均1年宕机1次是相当大概率的事件。

2. 网络问题:这也是云计算厂商最怕的问题,因为,基本看命。例如遭遇突发性的大规模DDoS、一铲子挖断了机房的光纤等,这些早已超出了云服务厂商技术是否过硬的范畴。

3. 机房运维问题:这需要看中国机房的水平。

4. 自然灾害等不可抗力事件:早已超出人为干预的能力范围, 只能看相应的云服务厂商是否有方式可以挽救,或者机构和企业自己解决。

所以,综上所述,云服务的“永不宕机”,由云服务厂商自己决定很难。

四、“云宕机”后如何急救?

在云服务宕机“无法解决”的情况下,企业除了“监督”各大云服务厂商积极应对这些外,也需要积极构建自身的容灾系统来应对宕机问题。毕竟,保证机构、企业的业务正常运转才是王道。

目前的市场上,能够做到数据本地化归档、满足容灾备份的专业安全产品早已普及,而专注机构和企业内部海量邮件数据安全的系统——MailData电子邮件数据归档系统,更是能够在满足邮件数据归档、容灾备份的基础上,同时实现秒级信息检索,在满足机构和企业业务正常运转的需求下,助力企业内部信息高速运转。

所以,与其对于“云宕机”保持时刻担忧和警惕,还不如选择线上+线下的双结合数据部署,既能在云服务器正常的时候享受数据、文件的便捷和共享,也无惧云服务器宕机的时候的数据丢失。

这样的“双重保险”,既是企业对业务部门效益的保障,也是机构和企业对客户的郑重承诺!