var
来源:网络作者:server发布时间:2016-07-25点击:2284
2016年4月22日11时28分,某公司北京亦庄数据中心供电中断,造成某村镇银行和多家金融机构托管在该机房的所有设备宕机,服务全部中断。
4月22日(周五),某公司(数据中心服务商,在该文内简称“某公司”)对租用的(XXXXX,另外一家数据中心服务商,在该文内简称为“XXXXX”)亦庄数据中心的4台老旧UPS升级,先将4号和3号旧UPS换新、由2号和1号旧UPS为机房供电,而后再更新2号和1号UPS,再此期间使用三台柴油发电机并机运行为UPS供电。升级过程中,两台旧UPS因负载过高(达到容量的90%),运行50分钟后切换至旁路,发电机不通过UPS直接对IT设备供电。12分钟后三台发电机接连出现“失磁”报警,陆续停止运行,导致机房全部设备断电,系统宕机,73家村镇银行的核心、银行卡、柜面、支付、网银、手机银行等业务全部中断,涉及全国12个省份,并造成部分服务器损坏,银行业务最长恢复时间达到7小时32分钟,同时还导致部分银行业金融机构的开发测试系统、灾备系统、生产业务系统不同时间中断。
暴露的问题
事件发生后,相关银行组织成立工作组,赴现场开展调查,事件主要原因及存在的问题如下:
升级时使用2台老旧的UPS为机房设备供电,UPS过载造成机房IT设备失去供电保护。升级前,某公司未进行由2台旧UPS 为机房供电的带载能力测试,未采取提前关闭部分设备、降低供电负载的常用风险规避措施。升级时,由2台老旧UPS为机房所有IT 设备供电,UPS高负载运行一段时间后温度过高,跳转至旁路运行,造成机房IT设备失去供电保护,进而引发发电机直接供电、出现失磁、停止运行、导致机房电力中断。
对生产系统高风险作业应急准备不足。升级方案对风险估计不足,缺乏场景设计,应急预案基本缺失。
高风险作业时间安排不当。某公司将UPS升级、供电线路割接的高风险操作安排日白天进行,为主要业务时段,UPS跳转旁路、发电机“失磁”告警停机、机房供电中断,造成相关银行业务全面中断、设备损坏。
事前未向银行明确提示风险,银行准备不足,业务长时间不能恢复。某公司未告知相关银行具体的升级方案和操作时点,及银行需提前做出的应急准备,在事前的通知邮件中告知银行“施工期间不会对贵司的用电造成影响”,因而未进行系统、数据应急准备,导致事发后银行业务长时间不能恢复。
分包机房主要运维服务。某公司将某村镇银行生产机房的基础设施管理等主要服务内容,分包给了(XXXXX),不符合《银行业金融机构信息科技外包风险监管指引》第三十七条“不得将外包服务的主要业务分包”的风控原则。
机房供电系统存在单点故障风险,未达到国家A级机房标准。该机房UPS电力输出实际为单路,存在严重缺陷。
监管要求
此次事件暴露出部分外包商风险意识缺失,技术能力和管理水平不足,与银行业信息科技风险管理标准存在较大差距等突出问题,同时也反映出银行业金融机构在信息科技外包管理方面还存在诸多风险隐患。为加强信息科技外包风险防控,银行业金融机构要切实强化责任意识、主体管理意识,改变对外包服务的粗放式管理,强化制度标准建设,加强监督检查。
最近另外一家国际知名数据中心服务商Equinix也遭遇了:UPS出故障,Equinix伦敦数据中心罢工(点击可阅读)。
据艾默生网络能源公司和波耐蒙研究所开展的调查声称,多年来,UPS故障一向是最常被提及的数据中心停运根源。据今年早些时候发布的最新调查报告声称,去年,所有停运事件中25%是由UPS和UPS电池故障引起的,这比2013年的24%有所增加,不过比2010年的29%有所下降。
据消息:该公司已被银监会拉入黑名单。如果事实如此,损失可不小,其他家高等级数据中心供应商可以捡到一些儿便宜~
你猜猜这家公司是谁?这里就不方便说了...
版权声明:本文系技术人员研究整理的智慧结晶,转载勿用于商业用途,并保留本文链接,侵权必究!