bisend

5大价值理念助你应对难以避免的云技术故障

2017-07-07 16:01 来源: 编辑: Claire 发表在 云计算 我要评论

3月底发生的亚马逊大规模网络中断事故提醒我们,所有提供公有云服务的企业,无论规模大小,都需要制定一个事件响应机制。在现实生活中,中断是不可避免的,但重要的是,在它们发生时,你如何做出响应。

设定流程是必要的,但这些流程不能(也不应当试图)涵盖所有可能性。如果在凌晨3点,突然发生了意想不到的事情,那么你的事件响应团队就需要一些坚定的指导方针,来帮助他们决定在接下来的关键时刻他们应当如何行动。

在Atlassian,我们提出了五个价值理念来指导我们如何应对事件和减少破坏。关于“价值理念”的文章很多,但它们并不只是挂着墙上为了好看而已。我们的工程师期望在压力之下不得不做出决定时,利用这些价值理念帮助他们度过难关。

每一个价值理念都对应事件响应的一个特定组成部分。我将在这儿分享它们,希望它们对你的企业也会有所帮助。

检测

价值理念:Atlassian先于其客户知晓情况 

一个设计良好的服务会做好充足的监测,以便在事件发生前检测和标记所有问题。如果你的团队在对客户造成影响前不了解客户所面临的迫在眉睫的问题,那么你就需要加强监控和报警了。

响应

价值理念:增强团队协作

一个工程师所能做的最糟糕的决定就是,因为可能不是他们的问题,他们就不想去提醒他人。没有人会在乎是否提醒他们一个与他们没有关系的事件,但如果他们应当被提醒但却没有的时候,他们就会在乎了。我们应该是处在同一个团队中的,而团队里的队友应当相互支持。

恢复

价值理念:事情发生了,赶快去处理

客户不会关心你提供的服务为什么会当掉,只要你能尽可能快地去恢复它。因此,永远不要有任何犹豫,因为只有快速地去解决事件,才有可能降低影响。

如果你是一名技术主管,一方面,你知道你可以快速恢复服务,但另一方面,你也可以在服务仍旧处于故障状态时,花一些时间去调查故障原因,思考你该怎么做?这个价值理念为你指出了答案:立即恢复服务,之后再找原因;毕竟,客户的体验是第一位的。

学习

价值理念:永远不要指责他人

在运行一个服务时,事故是不可避免的。我们所有的进步都是通过团队去承担责任,而不是指责队员来实现的。人为错误从来就不是一个重大事故的根本原因。为什么那个工程师能够将一个研发版本部署到生产中?为什么一个命令行排版错误会造成如此毁灭性的后果?因此,推卸责任从来就不是恰当的回应方式,恰当的方式是,找出缺失的保护措施并修复它们。

提高

价值理念:永远不要让同样的事件再次发生

确定问题的根源并做出改变,而这些改变可以预防所有此类事件再次发生。你必须思考,类似的错误会在其他地方发生吗?什么情形会导致一个程序员造成这个错误?你还要在具体的日期做出特定的改变。

有了这些价值理念,下一步需要做的就是确保它们被付诸实践。我们每月都会举行一次会议,讨论这些价值理念是如何被实施的,如果它们没有被实施,我们就会仔细分析具体情况。我们号召大家遵从这些价值理念。此外,我们已经将这些价值理念添加到了事件响应文档中。

服务中断是一个重大的问题:AWS事件对100强零售商的其中54个造成了影响,而这还只是在这个行业中。服务中断可能只影响了小部分人,但按比例来说,它对你和你的顾客来说就可能是破坏性的。因此,在关键时刻,为你的工程师提供他们所需要的帮助吧,帮助他们做出艰难的抉择,那么,他们和你的客户都将会因此而感激你。

聚焦云计算,扫描二维码,关注HostUCan云计算

标签:

相关文章

GoDaddy4亿欧元出售其PlusServer业务
07/21
本周二,GoDaddy宣布已经就出售其主机托管供应商PlusServer与欧洲私募公司BC Partners达成协议,双方约定交易价格为3.97亿欧元(约合4.56亿美元)。
采用裸机云?请三思而行
07/21
尽管使用裸机云可以获得一些好处,但通常这些好处并不比它的缺点所带来的影响大。
RightScale2017年度云计算调查报告
07/21
云计算已然是大势所趋,越来越多的企业,无论是中小企业还是大型企业,都开始实施或者计划实施云策略。作为研究云计算使用情况的领头羊,RightScale今年再次对全球1000多个企业用户进行了关于公有云、私有云和混合云的使用情况调查,调查对象覆盖了中小型(SMB,小于1000名员工)、大型(Enterprise,超过1000名的员工)等各种规模的企业和组织,并给出了最终的《RightScale2017年度云计算调查》报告。HostUcan对此报告进行了完整翻译,因为篇幅较长,所以本文仅列出一些要点,并与2015、2016云计算使用调查报告进行对比,希望对读者有所帮助。
赛门铁克拟摒弃证书业务
07/18
据路透社报道,赛门铁克正考虑出售其网站证书业务,这一报道是路透社引用相关资料后发出的。
云转型六大注意事项
07/17
为确保云技术能够促进企业业务发展,企业在实施云转型时,需牢记以下六点。
cloud_hosting
评论
还没有评论,快来抢沙发吧!
weibo qrcode
关注微信号:
HostUCan云计算
作者介绍
Claire
访问量: 2123
文章: 21

作者热门文章

bluehost
ssl

热门文章

服务推荐

云服务器专题
云服务器即云主机,是近年特别热门的主机产品,最新排名请看»
云存储专题
云存储稳定性高,成本低,扩展性好等特点,查找云存储优惠请看»
SSL证书专题
SSL数字证书,可以提高网站安全性,DV,OV,EV等产品报价请看»
美国主机专题
热门美国主机eHost速度快,价格便宜,更多最新热门美国主机请看»
inmotionhosting
host1plus
在线咨询 广告合作 回到顶部