因北京2区(PEK2)所在数据中心于3月22日下午遭遇电力闪断事故,造成QingCloud部分用户业务及控制台短时无法访问,对此我们深表歉意。目前故障已经排除,受影响的用户业务已经全部恢复。经全面核实,我们现将事故完整过程报告给您:青云QingCloud:
- 12:37 运营团队发现北京2区流量异常告警,监控多条线路访问中断、多台网络设备及物理服务器重启,定位为机房电力故障导致,随即对故障设备进行紧急修复;
- 12:41 部分物理服务器恢复访问;监控运营大数据分析显示批量设备出现过供电中断;
- 13:01 恢复北京2区控制台访问;
- 13:17 互联网出口流量恢复,基础网络修复完成;
- 13:19 机房运营方通告故障原因为机房UPS故障导致双路电力出现了分钟级的闪断,影响了QingCloud所使用的大部分机柜;因为电力闪断浪涌,造成一些物理服务器电源故障,运营团队进行备件设备更换;
- 14:25 运营机器人并发自动操作,第二批服务器修复,控制台修复。因重启设备过多,陆续将关键用户的业务拉起恢复;
- 16:25 用户业务基本恢复正常。
本次严重故障从设备重启到基础网络环境修复完成共耗时40分钟,系统数据和用户业务数据未出现任何丢失。
整改措施:
故障发生后,我们同机房运营方就事故过程、原因和技术细节进行了持续沟通,对其在未进行割接通知的情况下对数据中心关键基础设施进行维护操作,置青云QingCloud及其用户于高度运营危险之上的行为进行谴责,并责成其协同UPS设备厂商施耐德分析故障原因、复盘操作流程、提升运营水平,并出具真实、严谨的故障报告,确保在日后运营中规避类似事故的再次发生。
- 与机房运营方共同切实提高IDC服务保障水平。启动突击项目对青云QingCloud公有云各可用区所在数据中心分别就电力、暖通、网络等各个专业系统进行风险摸排。
- 对机房运营方的运营管理流程规范进行更加严格和全面的检查,制定和签署相关责任书,排除未通知割接、高峰期对基础设施进行非必要性操作等低级错误的发生。
- 全力协助客户实现同城及异地容灾。借助青云北京多个可用区布局、全国骨干网的布局为青云关键客户实现容灾部署,并利用青云弹性计算能力为客户提供跨区容灾秒级调度。
青云QingCloud公有云基础设施数据中心,全部是T3+级别,要求来自不同变电站的双路市电,2N冗余配置的UPS保护、柴发保护、保障99.99%的电力可用性,然而除了基础设施硬件的高端保障,踏实稳妥的运营更加关键,我们会与机房运营方共同努力,提升运营意识和严谨性。
因本次故障为您的业务造成的影响,我们再次深表歉意,并进行补偿。
感谢您一直以来的理解和支持,我们将不遗余力地持续加强各个方面的保障能力,全力守护用户业务的稳定。
青云QingCloud