重新思考云中的灾难恢复

Claire| 2018-12-29 来源: 云计算 评论数( 0 )

2018年9月4日,微软Azure云服务由于数据中心冷却问题而导致突然宕机,从而影响了多家位于美国中南部的公司。一位IT专业人士表示:“尽管我们是一家全国性的公司,但我们所有的流量都经过得克萨斯州达拉斯,因此整个公司都受到了影响。这使得许多我们的业务流程都有所放缓。”

作为一家领先的公有云服务提供商,并不是只有Azure才经历了宕机事故。谷歌云和亚马逊的AWS也都经历了宕机事故,从而给其企业客户造成了负面影响。

如果你还没有修改你的基于云计算的DR计划,那么现在是时候采取行动了。

反思灾难恢复

西海岸一家金融服务公司的IT经理表示:“到目前为止,我们真的没有考虑过修改我们的DR计划。当我们回顾与云供应商的合同时,我们发现,几乎所有的合同都包含免责条款,即如果发生灾难,云供应商将不负责服务或数据恢复SLA协议,这真的让我们很担心。”

对于使用了软件即服务(SaaS)供应商的公司来说,情况变得更家复杂了,因而这些公司转而依赖第三方云提供商来托管它们的服务。

当SaaS公司所使用的第三方云提供商在其数据中心出现故障时,会发生什么情况?加州SaaS公司的一位高管表示:“在这种情况下,我们只会让客户与我们的云服务提供商取得联系,而这是几乎是不太可能的。”

不幸的是,如果你正在经历一场灾难,而你又发现自己面对的是一个与你没有签订合同、甚至你自己都不知道的第三方,那么这肯定不是一个好的处境。

在云端,你必须以不同的方式进行思考。为内部计算而设计的DR实践与云世界是不同步的,因此便需要考虑一些策略,如系统和数据的复制、与供应商的合作测试、甚至故障转移到其他供应商等。

对于修改你的云计算灾难恢复(DR)计划来说,以下是我们建议的7个最佳实践。

1. 定期备份和复制系统和数据

网络基础设施公司Saalex IT的销售总监Michael Flavin表示:“在云计算中,有一个巨大的风险,是许多公司都没有考虑到的。企业可以保护自身免受云宕机的方法之一是,对系统和数据进行安全备份,以便进行故障转移。这可以通过定期将数据复制到第二个备份数据中心来实现。”

2. 理解在停机期间恢复系统的顺序

在过去的中央数据中心时代,确定哪些系统必须在停机期间首先恢复以及哪些系统在之后恢复相对来说并不复杂。使这些更容易确定的是,所有这些系统都在你自己的直接控制之下。

混合计算则不是这样的,因为应用程序和数据可以从一个云转移到另一个云,或者在云和内部数据中心之间移动。

“当客户来找我们时,我们做的第一件事就是和他们坐下来,确定首先需要恢复哪些系统,”混合IT解决方案提供商U.S. Signal的云工程和研发总监Derrin Rummelt说。“然后我们会执行测试,以确保恢复正常。”

了解恢复的顺序以及不同系统和数据组操作和存储的位置是非常重要的,因为在某些情况下,可能需要连接到另一个云或内部数据中心来完成系统事务。如果其中一种资源不可用,那么你的恢复就会处于危险之中。当不断对应用程序和数据进行修改时,这会变得更复杂,因为当企业没有重新测试新修改时,便会引入额外的风险,结果,恢复就不再有效了。

3.定期测试你的灾难恢复

即使你的系统和数据保持相对不变,但当在你所使用的云供应商的基础设施和平台中引入新的更改时,就可能影响你自己的系统和数据的性能,这始终存在风险。防止这种情况发生的唯一方法是每年与云供应商一起测试DR计划,以确保恢复确实有效。

“一家公司可以在其IT中使用多个SaaS、PaaS和IaaS云平台,”Saalex的Flavin说。“通过定期测试这些系统,甚至通过复制,你就可以确保恢复在每个云场景中都有效。”

企业真的能够承担起这个任务吗?

“我们最近对不同公司进行了一项调查,34%的公司表示每年都会测试灾难恢复计划,” U.S. Signal产品和服务副总裁Amanda Regnerus说到。“30%的人说他们每六个月会测试一次他们的DR计划,40%的人说他们每两年或更久的时间会测试一次他们的DR计划。这一40%的比例是十分令人担忧的。”

4.定义你的灾难恢复目标

随着持续复制技术和灾难恢复专门化不断推动着更多灾难恢复即服务(DRaaS)公司的增长,对于那些为其混合计算环境计划DR的企业来说,好消息是有可用的帮助。但是,如果不定义灾难恢复目标,这些帮助都将是无效的。

虚拟复制服务提供商Zerto的技术专员Steve表示:“我们对企业的建议是,为其数据制定一个低于30秒的恢复点目标(RPO),以及一个恢复时间目标(RTO),根据其IT环境和运行的工作负载类型的不同,该RPO从几分钟到一个小时不等。” 

5.管理你的供应商关系

“在很多方面,我们都没有很好地管理我们的供应商关系,”西海岸的一位IT经理承认。“我们没有看过合同,也没有和供应商交谈过SLA协议,我们也从来没有和他们一起测试过DR,尽管我们知道他们在全国各地都有数据中心。”

这种情况并不只是这位经理才有。除非你是一个拥有专门的合同管理人员的大型企业,否则你已经负担过重的IT人员可能无法与供应商保持联系,或者花时间与供应商保持良好的关系,而这种关系可能有助于灾难恢复计划和执行。

“我们和云提供商做的其中一件事就是每年与他们会面。我们还会不时地与他们进行磋商,甚至与他们会面,以确定共同的战略,并讨论相关问题,”服务于零售行业的SaaS公司Island Pacific的首席技术官Benjamin Baghdadi表示。“这真的帮助我们与云服务提供商建立了密切的合作关系。我们知道他们会在灾难中做出响应。”

6.选择拥有和操作自己的数据中心的SaaS供应商

当你在寻求云供应商的SaaS解决方案时,RFP(提案申请)上的一个关键点应该是,他们是否拥有和操作自己的云数据中心。在灾难恢复场景中,SaaS操作人员能够同时拥有和操作其解决方案运行在其上的云,这是再好不过的了,因为如果服务发生中断,他们对在他们的端上出现的故障负有全部责任——你只需要担心一个接触点。

7.管理你的风险

为混合云环境调整DR计划的最后一个元素是风险管理。

当一位IT专业人士被问及其管理部门是如何评估上云的风险的时候,他说,“我确实认为,高层管理人员正在非常仔细地权衡风险与成本,但可能倾向于节约成本。”

该声明由2017年的一项调查结果得到证实,当时,这项调查结果披露到,三分之二的公司采用了云计算,这主要是因为他们认为可以节省成本。

这凸显了为什么任何云计算策略都必须包括与C级管理层和企业董事会的明确沟通,即将计算转移到云端也会带来新的风险,而对数据中心拥有完全控制则是没有这些风险的——尤其是当涉及到灾难恢复时。

如果你的管理层知道你已经认识到了风险,并且已经相应地调整了灾难恢复计划,那么他们就会对你的云计算策略感到更加安全。

聚焦云计算,扫描二维码,关注HostUCan云计算

有好的文章希望站长之间帮助分享推广,猛戳这里我要投稿

您需要登录后才可以评论登录|注冊

暂无评论