微盟“删库”为什么恢复时间这么长?

2月23日,微盟集团发布公告称:因SaaS业务数据遭到一名员工“人为破坏”,导致系统故障。目前,微盟生产环境及数据被严重破坏,约300万个平台商家的小程序全部宕机,其中不乏知名公司及品牌。

截至发稿时,系统目前还处于修复阶段,预计全部恢复将在2月28日晚上24点完成。在这期间,微盟启动紧急响应机制,并在腾讯云的支持下一起研究制定生产环境和数据修复方案。

受此事件影响,该公司26日、27日、28日股票分大跌8%、4%和12.2%,仅仅3天市值就蒸发25亿港元以上。

微盟的危机应对值得我们借鉴

微盟的这次删库事件,对很多行业用户造成了很大的影响,但是面对危机,微盟所表现出来的社会责任感是值得我们借鉴和学习的。面对突如其来的故障,微盟并没有试图掩盖真相,而是第一时间在其官网发表声明,解释事情的背后原因,并且明确告知了后阶段的恢复计划以及明确的时间节点。

要知道,微盟也是此次事件的最大受害者,在幕后,我们可以想象会有多少个运维人的不眠之夜。

多一些真诚,少一些套路,有问题一起扛,是面对此类危机最好的方法。如果你试图掩盖,盖不住了就撒谎,接着就像张宇唱的那样“用一个谎言圆一个谎言”,必然会让自己陷入更深层次的危机。危机之下,我们要的是公开的信息,这样才能减少公众的猜测,抵制黑公关,并获得大家的理解和支持。

为什么恢复时间这么长?

那接下来的问题就是,既然微盟已经在全力抢修,同时腾讯云也给予了极大的技术协助,那全面恢复的时间为什么还要这么久呢?

圈子外的同学可能觉得这个不应该很复杂,感觉不就是重装一下系统吗,数据库不是都应该有备份吗,直接恢复一下不就行了吗。其实事情远远要比你想的复杂得多。很多时候,人常常会有一个认知上的偏差,对于一个自己没有切身参与过的领域,我们会不自觉地对难度产生错误的判断。这种所谓的迷之自信,是很难克服的。

这样的例子很多,比如在看球赛的时候,有人就恨不得把电视砸了,总觉得某些球员怎么这么挫,但是真要是轮到你上场,你就能比他好吗。再比如兰州拉面,看起来也没什么难度嘛,来回几下子面就拉出来了,但要是换你上,你能拉出那碗面吗。

其实,熟悉现代软件架构和运维的同学一定知道,现在软件的架构以及部署是极其复杂的,尤其在微服务大行其道的今天,每个微服务本身就是一个集群,微服务和微服务之间还有各种依赖关系,同时每个微服务都有可能会和数据库打交道,光理清楚这些服务之间的依赖和配置就够大家受的了。

更何况这次的微盟事件不是一次局部的更新和发布,而是几乎整体架构的全局梳理,从这个意义上说,难度不亚于从头搭建整个系统,更何况是在如此巨大的业务压力和舆论压力之下。

再来看看数据库,根据目前官方的信息推测,这次的数据库应该是在生产环境的本地库发生了不可逆的删除,否则不可能会需要这么长的时间。假定本地生产库没了,那唯一的方法就是借助远程灾备的全量备份库来恢复,但这也会引发出一系列的问题,比如远程库容量大,需要大量的网络传输时间。

再比如,增量备份的完整性欠缺,另外,还会出现由于近期的数据Scheme变更引发的备份数据兼容性问题等。这些都需要研发人员和运维人员的共同推进,这就会需要更多的时间……


<来客推(www.laiketui.com)是国内知名商城系统及商城网站建设提供商,为企业级商家提供零售商城、B2B2C多用户商城系统、社区团购商城系统、微信分销系统、小程序商城、微分销系统等多端商城网站建设解决方案>

申明:本网站部分文章和图片来源网络编辑,如有侵权及时沟通删除,来客电商原创文章,转载请注明来源。

相关新闻

QR code