5大价值理念助你应对云技术故障

Claire| 2017-07-07 来源: 云计算 评论数( 0 )

3月底发生的亚马逊大规模网络中断事故提醒我们,所有提供公有云服务的企业,无论规模大小,都需要制定一个事件响应机制。在现实生活中,中断是不可避免的,但重要的是,在它们发生时,你如何做出响应。

设定流程是必要的,但这些流程不能(也不应当试图)涵盖所有可能性。如果在凌晨3点,突然发生了意想不到的事情,那么你的事件响应团队就需要一些坚定的指导方针,来帮助他们决定在接下来的关键时刻他们应当如何行动。

在Atlassian,我们提出了五个价值理念来指导我们如何应对事件和减少破坏。关于“价值理念”的文章很多,但它们并不只是挂着墙上为了好看而已。我们的工程师期望在压力之下不得不做出决定时,利用这些价值理念帮助他们度过难关。

每一个价值理念都对应事件响应的一个特定组成部分。我将在这儿分享它们,希望它们对你的企业也会有所帮助。

检测

价值理念:Atlassian先于其客户知晓情况 

一个设计良好的服务会做好充足的监测,以便在事件发生前检测和标记所有问题。如果你的团队在对客户造成影响前不了解客户所面临的迫在眉睫的问题,那么你就需要加强监控和报警了。

响应

价值理念:增强团队协作

一个工程师所能做的最糟糕的决定就是,因为可能不是他们的问题,他们就不想去提醒他人。没有人会在乎是否提醒他们一个与他们没有关系的事件,但如果他们应当被提醒但却没有的时候,他们就会在乎了。我们应该是处在同一个团队中的,而团队里的队友应当相互支持。

恢复

价值理念:事情发生了,赶快去处理

客户不会关心你提供的服务为什么会当掉,只要你能尽可能快地去恢复它。因此,永远不要有任何犹豫,因为只有快速地去解决事件,才有可能降低影响。

如果你是一名技术主管,一方面,你知道你可以快速恢复服务,但另一方面,你也可以在服务仍旧处于故障状态时,花一些时间去调查故障原因,思考你该怎么做?这个价值理念为你指出了答案:立即恢复服务,之后再找原因;毕竟,客户的体验是第一位的。

学习

价值理念:永远不要指责他人

在运行一个服务时,事故是不可避免的。我们所有的进步都是通过团队去承担责任,而不是指责队员来实现的。人为错误从来就不是一个重大事故的根本原因。为什么那个工程师能够将一个研发版本部署到生产中?为什么一个命令行排版错误会造成如此毁灭性的后果?因此,推卸责任从来就不是恰当的回应方式,恰当的方式是,找出缺失的保护措施并修复它们。

提高

价值理念:永远不要让同样的事件再次发生

确定问题的根源并做出改变,而这些改变可以预防所有此类事件再次发生。你必须思考,类似的错误会在其他地方发生吗?什么情形会导致一个程序员造成这个错误?你还要在具体的日期做出特定的改变。

有了这些价值理念,下一步需要做的就是确保它们被付诸实践。我们每月都会举行一次会议,讨论这些价值理念是如何被实施的,如果它们没有被实施,我们就会仔细分析具体情况。我们号召大家遵从这些价值理念。此外,我们已经将这些价值理念添加到了事件响应文档中。

服务中断是一个重大的问题:AWS事件对100强零售商的其中54个造成了影响,而这还只是在这个行业中。服务中断可能只影响了小部分人,但按比例来说,它对你和你的顾客来说就可能是破坏性的。因此,在关键时刻,为你的工程师提供他们所需要的帮助吧,帮助他们做出艰难的抉择,那么,他们和你的客户都将会因此而感激你。

标签:

聚焦云计算,扫描二维码,关注HostUCan云计算

有好的文章希望站长之间帮助分享推广,猛戳这里我要投稿

您需要登录后才可以评论登录|注冊

暂无评论