关于QingCloud故障全过程及IDC防雷详解

丰富的线上&线下活动,深入探索云世界

做任务,得社区积分和周边

最真实的开发者用云体验

让每位学生受益于普惠算力

让创作激发创新

资深技术专家手把手带教

遇见技术追梦人

技术交流,直击现场

海量开发者使用工具、手册,免费下载

极速、全面、稳定、安全的开源镜像

开发手册、白皮书、案例集等实战精华

为开发者定制的Chrome浏览器插件

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,6月6日下午,QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用。设备重启后2小时31分GD1业务恢复,系统数据和用户的业务数据未出现任何丢失。

关于2015年6月6日青云QingCloud广东1区(GD1)机房电力故障的说明

因广东1区(GD1)所在IDC遭遇雷暴天气引发电力故障,昨天下午QingCloud广东1区全部硬件设备意外关机重启,造成QingCloud官网及控制台短时无法访问、部署于GD1的用户业务暂时不可用,对此我们向受影响的用户表示深深的歉意。现将事故完整过程报告如下:

13:48,我们收到GD1硬件及网络告警,并发现官网及控制台无法访问;工程师马上进行系统状态检查,发现GD1所有硬件设备出现重启;随即我们与GD1所在的IDC运营商沟通询问机房情况,同时排查其他可能导致设备重启的原因,并着手恢复管理服务(KS);其间,我们收到大量用户反映GD1业务中断;

14:08,操作切换DNS以恢复官网及控制台;

14:23,我们从IDC运营商处获知由于机房所在地区出现雷暴天气,机房因雷击引起UPS异常,机柜瞬时断电再加电,从而导致了青云的全部物理设备异常关机与重启;

14:38,GD1的管理服务恢复,Bots系统恢复,开始恢复用户主机;用户可以访问GD1资源;DNS完全生效,官网及控制台访问恢复;

15:15,内网DNSServer恢复;系统持续检查环境和帮助用户恢复业务;

16:19,GD1业务完全恢复,进一步检查后,于16:30分发布恢复公告。

本次严重故障从设备重启到用户业务恢复共耗时2小时31分钟,系统数据和用户的业务数据未出现任何丢失。

故障发生后,我们同IDC运营商“睿江科技”就事故原因和技术细节进行了持续沟通,并责成睿江科技出具真实、严谨的故障报告,力求全面了解机房电力系统和防雷系统发生故障的真实原因,以便在未来规避类似事件的再次发生。

截止目前,我们已经获取睿江科技提供的《关于20150606XX机房故障说明-青云》报告一份(附后),其中就雷击引起的电力故障进行了初步说明。通过报告,我们可以了解到的信息如下:

电力系统:直击雷导致电力系统出现瞬时浪涌,UPS启动自我保护(报告中提到的“UPS瞬时波动”),从而释放电流导致瞬间断电。

防雷系统:机房配备了强电、弱电、UPS及列头柜四级防雷,雷击主要是直击雷和感应雷两种,本次发生的是直击雷,现有防雷设施很难防护,从而导致雷电直接影响到电力系统,导致UPS断电保护。

但我们对其中的细节披露和专业解释仍存在以下疑问:

针对本次恶劣天气导致的事故,我们通过重新审视了故障发生和排除的全过程,认为我们的技术能力和服务能力还有以下些可以进一步改进的地方:

在任何故障情况下,保障官网及控制台正常访问。目前我们的官网及控制台是通过DNS切换的方式确保在所在区出现网络不可达或系统故障的情况下尽快恢复访问。未来我们会制定更快速有效的办法进一步确保官网及控制台的正常访问;

在出现全部设备重启等极端故障情况下,更快地恢复管理服务和业务系统。本次在设备重启后,我们是通过Bots系统和人工操作结合的方式恢复了GD1的管理服务和用户业务,未来我们会编写更加智能的软件脚本,保障在极端情况下,业务系统能够更快速地恢复,将可能造成的损失降到更低;

容灾保护能力提升。将实现关键业务的容灾能力作为长期努力的目标,通过连接各个区的环网的建设和运营等手段实现更好的容灾能力。

综上,我们会全面审核故障处理流程,以应对机房断电等最极端的事故为标准进一步提升QingCloud系统的可用性,让信息传递更加及时和透明,通过自动化手段提高切换和业务恢复速度,让曾经发生的故障成为我们不断进步的和提高服务能力的源泉。

青云QingCloud

附《关于20150606XX机房故障说明-青云》

下面为讲讲被雷劈了咋办详解数据中心防雷问题

最近各地气候异常,随着地震、水灾、干旱、地陷、雷击等灾难事件的频发,各种预警及防范措施也在相继出台。每年的4~10月份是雷电活动频繁期,数据中心内的设备众多,更是不能掉以轻心。

夏季的数据中心除了要承受酷暑的考验之外,还要抵挡频繁的雷电冲击,每逢这个时候,网络设备遭受雷击的事件便一浪接一浪,轻则造成个别网络设备受损,重则导致整个局域网一下子就瘫痪了。

很多数据中心的管理者认为日常的雷击电压不能击坏设备,但是我们需要知道的是即使雷击所造成的感应电压不足于一次击坏网络设备,但经过长年累月的过压冲击,也会引起网络设备零件的老化,让网络设备使用寿命急剧下降,而旧设备就更加容易遭受破坏,严重地影响网络的性能稳定。介于对数据中心带来的这些灾难结果,今天我们就数据中心的防雷技术进行详细的分析及探讨。

遭雷劈的原因

雷电入侵数据中心的途径:

一、直击雷是雷电直接击在建筑物上,产生电效应、热效应和机械力而导致建筑物损坏。建筑物受到直接雷击后,强大的雷击电流沿着接地引下线,经接地体入地后地电位会瞬间升高,产生高电位,引起地电位反击,损坏设备或造成人员伤亡。

二、雷电感应是雷电放电时,在附近导体上产生静电感应和电磁感应,它能使金属部件之间产生火花。雷电感应可以来自对地雷击,也可以来自云间放电,其中对地雷击由于距雷击点较近,产生的感应浪涌电压较大,作用半径也大,一般500米范围的电子信息设备均是其破坏对象;云中放电的感应浪涌电压虽然较小,但发生概率较高。静电感应是由于雷云先导的作用,使附近导体上感应出与先导通道符号相反的电荷,雷云主放电时,先导通道中的电荷迅速中和,在导体上的感应电荷得到释放,如不就近泄入地中就会产生很高的电位。电磁感应是由于电流迅速变化在其周围空间产生瞬变的强电磁场,使附近的导体产生很高的电动势。

三、雷电波的入侵是由于雷电对架空线路或金属管道的作用,雷电波可能沿着这些管线侵入室内,危及人身安全、损坏设备。根据雷电电磁脉冲防护理论和实践经验证明,电子信息设备损坏的主要原因是雷电感应浪涌电压造成的。它可以通过各种引线把感应浪涌电压波引入电子信息设备内部,破坏其芯片和接口。

数据中心非常注重的就是供电的持续性,因此防雷工作就不能忽视,性能比较优秀的网络设备本身就自带有防雷保护功能,在电源进来的线路上,就有用来吸收高压突波的线路设计。虽然产品带有防雷保护的功能,但是就雷电产生的感应电压有几千伏特或者上万伏特甚至更高,无论哪个品牌的路由器,单单路由器本身自带的防雷功能只可能解决一部分雷电所造成的危害,想进一步减少雷电引起的危害就要配备相应的防雷设备。

防雷保护措施

防雷产品分析

一、接闪器

避雷针是最早的接闪器,也是目前世界上公认的最成熟的防直击雷装置。避雷带、避雷网、避雷线是避雷针的变形,其接闪原理是一致的。对避雷针的接闪原理的认识是有一个发展过程的,现在的滚球法理论比较全面地解释了接闪器吸引雷电的各种现象,被国内外标准所采纳。

特殊避雷针还有一些避雷针承认自己接闪雷电,但其保护范围特别大,而且不会因为加装了避雷针而增大雷击概率。这一类产品在市场上的份额不大,没多少人去深究其技术原理的可行性。但在标准中规定任何接闪器都只能按滚球法校核保护范围。

二、引下线

其实,在国标《建筑物防雷设计规范》(GB50057-94)中,对金属引下线的规定就已采取了降低引下线电磁干扰的措施,如多根引下线的分流作用,均匀对称的布置在建筑物四周可相互抵消内部电磁场,利用建筑物的钢筋框架这个很好的屏蔽笼(法拉第笼)接闪引下雷电流等。因此,普通金属引下线的方法在技术经济上都是可行的。

三、低压电源避雷器

通信站80%的雷击事故是由雷电波侵入电源线造成。因此,低压交流避雷器发展非常迅速,而以MOV材料为主的避雷器在市场上占有统治地位。

避雷器的残压只是避雷器的技术指标,真正加在设备上的过电压还要在残压的基础上加上避雷器与电源线、地线连接的两段导线电感产生的附加电压,因此正确的安装避雷器也是降低设备过电压的重要措施。

四、通信线路避雷器

通信线路避雷器的技术要求较高,因为除了满足防雷技术要求外,还须保证传输指标符合要求。加上与通信线路相连的设备耐压很低,对防雷器件的残压要求严格,因此在选择防雷器件时较困难。

理想的通信线路防雷器件应是电容小、残压低、通流大、响应快。最简单的电路是在高频芯线上并联一个小磁芯电感,就可以构成高通滤波的避雷器。对于点频通信天线也可采用四分之一波长的短路线构成带通滤波器,防雷效果更好,但这两种方法都会将天馈线上传送的直流短路,其应用范围有限。

五、接地装置

接地是防雷的基础,标准规定的接地方法是采用金属型材铺设水平或垂直地极,在腐蚀强烈的地区可以采用镀锌和加大金属型材的截面积的方法抗腐,也可以采用非金属导体做地极,如石墨地极和硅酸盐水泥地极。更合理的方法是利用现代建筑的基础钢筋做地极,有事半功倍之效。

由于过去对防雷认识的局限性,片面强调降低接地电阻的重要性,导致一些厂家推出各种接地产品,声称能降低地电阻。如降阻剂、高分子地极、非金属地极等。

接地电阻主要受土壤电阻率和地极与土壤接触电阻有关,在构成地网时与形状和地极数量也有关系,降阻剂和各种接地极无非是改善地极与土壤的接触电阻或接触面积。但土壤电阻率起决定作用,其它的都较易改变,如果土壤电阻率太高就只有工程浩大的换土或改良土壤的方法才能有效,其它方法都难以凑效。

选用防雷产品的注意事项

一、设计是否有利于用户并且容易安装

理想的产品应该是一个小型、紧凑并且能够安装在现有的空间内,同时易于安装。

二、一次能够处理的最大电流

最大电流(即峰流)是指一个电涌防护器的处理最大电流的能力。Bellcore实验室为了保护它高度计算机化的实验中心,进行了广泛的调研,确定了电涌防护器处理最大电流的能力和所需的技术参数,一个20千安的电涌防护器即可满足要求,起到防电涌、保护设备的作用。由此可见,在任何建筑物内的分支线供电箱处安装一个80千安的电涌防护器,便足以解决任何可能出现的电涌问题。对多雷击区的贵重电气设备,应在建筑物进口的交流配电箱处安装一个较大的防护器,型号从160千安到400千安。

三、吸收能量的能力

电涌防护器吸收能量的能力以焦耳(joule)来衡量,焦耳值越高,电涌防护器的使用寿命越长。

四、钳制电压的能力

也就是将过电压钳制到电器设备所能承受的安全范围之内的能力。计算机被设计在一定电压范围内使用,如果超出了这个范围就会导致计算机的损坏。因此电涌防护器必须把过电压钳制到安全水平,1998年6月1日开始实施的GA173-1998标准规定用于220/380伏电力系统的计算机防雷保安器(电涌防护器)的钳制电压应小于或等于2000伏。

五、符合国际和国家标准

电涌防护器应符合国际标准,包括UL1449、ANSI/IEEE、NEMA和IEC。在我国同样有相应的标准,公安部公共信息网络安全监察局要求:所有用于保护计算机的防雷保安器(本文中称为电涌防护器),都必须根据GA173-1998的标准通过检测并获得销售许可证后,方可销售。

六、产品的可靠性及客户单

了解客户单以及厂家从事产品生产的历史有助于了解厂家的信誉和其产品的可靠性。

七、质量保证

保质期限的长短体现了制造商对其产品是否能不出问题、能长久的保护设备的自信心。一旦产品出现问题,客户是否能得到快速免费的服务,也是用户应考虑的因素之一。

时至盛夏,暴雨、雷电天气较多,由于数据中心通信和供电电缆多从室外引入数据中心,易遭受雷电的侵袭,数据中心建筑的防雷设计尤其重要,而在通常的站区建筑设计中往往忽视这一点,数据中心的建筑防雷除应有效地保护建筑自身的安全之外,也应为设备的防雷及工作接地打下良好的基础,只有建立多层次的计算机防雷系统,才能确保计算机信息系统的安全运行,最大限度地防御和减轻雷电灾害对计算机信息系统造成的危害和损失。

THE END
1.危险化学品仓库应该设有避雷设施,并且每5年至少检测一次。危险化学品仓库应该设有避雷设施,且每5年检测一次() 点击查看答案 第4题 危险化学品仓库应该没有避雷设施、并且每5年至少检测一次() 点击查看答案 第5题 危险化学品仓库应设有避雷设施,并每三年至少检测一次。() 点击查看答案 第6题 危险化学品仓库应该没有避雷针设施,并且每5年至少检测一次() 点击查看答案 ...https://www.shangxueba.cn/2103185.html
2.电力设备预防性试验规程本标准从生效之日起代替1985年原水利电力部颁发的《电气设备预防性试验规程》,凡其它规程、规定涉及电力设备预防性试验的项目、内容、要求等与本规程有抵触的,以本标准为准。 本标准的附录A、附录B是标准的附录。 本标准的附录C、附录D、附录E、附录F、附录G是提示的附录。 https://www.360doc.cn/article/49582014_703445732.html
3.“山东港口杯”港口流体装卸工职业技能竞赛理论题库.pdf98、一般情况下,接地装置应每几年定期检查一次,对防雷接地装置在哪个雷雨季节前应检测一次。(B)A.半年每年B,每年每年C.半年半年D.半年两年99、根据《石油化工企业设计防火规范》,凡闪点(B)的油品称为易燃油品。A.W28℃B.^45℃C.W60℃I),W120℃100、运输危货物时贴有如图所示标志,表示该货物属于D()?A....https://max.book118.com/html/2024/1028/8007105026006140.shtm
1.防雷检测和防雷工程接地综合指南电阻电气避雷器等电位引下线...其他指标:根据具体的防雷装置,还包括其他指标参数,如避雷针高度、接地电流等。 地凯科技防雷检测和防雷工程接地是保障建筑物和设备安全的重要措施。通过定期进行防雷检测,确保防雷装置的有效性,能够有效防御雷电灾害,减少雷电对建筑物和设备的破坏。国家标准和规范为防雷检测提供了科学依据,检测指标参数则为防雷装置的性能...https://www.163.com/dy/article/J9KLMJK60553SZPH.html
2.防雷检测多久做一次检测内容包括: 1、防雷接地系统的检查,包括接地电阻、接地体、接地线等; 2、防雷装置的检查,包括避雷针、避雷带、避雷网等; 3、防雷系统的检查,包括等电位连接、浪涌保护器等; 4、建筑物内部电气系统的检查,包括电源线路、通信线路、设备等。https://www.qilaijian.com/zishi/39827.html
3.防雷设施应每年检测一次又到了雷雨多发的季节,每年这时候,总会有一些电器等被击坏的情况发生,我们住的房子安全吗?有关专家表示,建筑物的防雷设施并不是安个避雷针这么简单,还有电源保护等,而且投入使用后也应该一年至少检测一次,但居民小区去申请检测的很少。 并非装个避雷针就能防雷 ...https://cq.loupan.com/html/news/201308/198968.html
4.国家能源局防止电力生产事故的二十五项重点要1.2.9 雷雨天气,需要巡视室外高压设备时,应穿绝缘靴,并不准靠近避雷器和避雷针。 雨天操作室外高压设备时,应使用有防雨罩的绝缘棒,穿绝缘靴、戴绝缘手套。雷电时禁止就地倒闸操作和登塔作业。发生雷雨天气后一小时内禁止靠近风力发电机组。 1.2.10 当高压设备发生接地故障时,室内不得接近故障点4m以内,室外不得接近...https://wesinx.com/news/industry/129.html
5.雷电灾害范文12篇(全文)3、酒店的水电维修人员在每日的巡视工作中,要对现有避雷针、避雷带的状况与屋顶金属物的连接情况、引下线是否有断裂或锈蚀、接地装置附近土壤是否有沉降现象、排(下)水管线是否堵塞等进行仔细安检。 4、防雷减灾工作重点建筑物是:二期各单位、办公楼、总部宿舍、168酒店、锅炉房、动力中心、洗涤中心等设施设备。 https://www.99xueshu.com/w/ikey6ayeq21u.html
6.日常安全巡检制度(通用9篇)在进行通信铁塔连接构件的检测时, 更需要注意防雷接地扁铁及避雷针的检测, 确保其符合防雷要求。 3.4防锈检测和维护 通信铁塔连接构件的防锈检测和维护是极为必要的, 检修人员需要对热镀锌防锈的钢塔桅结构进行检查, 如果发现有局部破损就需要立即将镀锌层破损位置清理干净, 并在上面涂两次防锈底漆再涂两次面漆。全塔...https://www.360wenmi.com/f/filel5rcbfwj.html
7.消防安全知识竞赛题答:防雷装置检测应当每年一次,对爆炸危险环境场所的防雷装置应当每半年检测一次。 43、金属油罐必须作环型防雷接地,其接地点不应少于几处?其间距不应大于多少米? 答:其接地点不应少于两处,其间弧形距离不应大于30m。 44、当罐顶装有避雷针或利用罐体作接闪器时,每一接地点的冲击接地电阻不应大于多少? https://m.oh100.com/zhishi/703217.html
8.射阳县应急管理局智慧消防项目采购需求文件⑦观察各路进线柜、出线柜、电压(电流)互感器、避雷针、导线、开关、接触器、继电器线圈各节点接线端子等有无弧光闪络痕迹和打火现象。 (2)变压器巡检(检测设备:红外线测温仪) ①测量变压器温度是否在允许范围内并效验温度计显示是否正确; ②检查变压器冷却风机运行是否正常,监视变压器是否额定(电流)运行,超差值是在...https://www.gdliontech.cn/support/2201.html
9.2024年高压电工证考试题库及高压电工试题解析A、避雷针 B、避雷线 C、避雷器 16、【单选题】10KV跌落式熔断器安装时,熔管轴线与地面的垂线夹角为( )度。( D ) A、5~15 B、10~15 C、15~20 D、15~30 17、【单选题】DZ5系列自动空气开关不具有下列()保护功能。( D ) A、失压保护 https://zx.aqscydt.com/ITCPUU4I.html
10.发电机定子接地故障分析的论文(合集13篇)为防止雷电过电压对人身或设备产生危害,而设置的过电压保护设备的接地,称为防雷接地,如避雷针、避雷器的接地。 (四)重复接地。在低压配电系统的系统中,为防止因中性线故障而失去接地保护作用,造成电击危险和损坏设备,对中性线进行重复接地。系统中的重复接地点为:架空线路的终端及线路中适当点;四芯电缆的中性线;...https://www.hrrsj.com/wendang/lunwen/856378.html
11.2013年安全工程师《安全生产法》模拟题及答案(3)A.避雷针 B.隔离 C.封闭 D.避雷器 42.异常带电是指( ) A.不正常的带电 B.通常是指“漏电” C.特殊情况下的带电 D.带电体异常带电 43.防止触电的漏电保护装置宜采用高灵敏度、快速型装置,其动作电流与动作时间的乘积不应超过( )毫安秒。 https://m.hqwx.com/news/2013-8/201308091003591944.html
12.用电检查复习资料论述题dg6575(1)对外部过电压,装设符合技术要求的避雷线、避雷针、避雷器(包括由间隙组成的管型避雷器)和放电间隙。 (2)对内部过电压,适当的选择系统中性点的接地方式,装设性能良好的磁吹避雷器、氧化锌避雷器和压敏电阻,选择适当特性的断路器,采用铁芯弱饱和的互感器、变压器,装设消除或制止共振的电气回路装置等。 https://blog.sina.com.cn/s/blog_3f6ba8340100sqyx.html
13.电工基础知识培训问答答:防止变电所遭受雷击破坏的方法是利用避雷针使被保护的设备和建筑物处在 它的保护范围之内。 23.避雷器何时投入和退出运行? 答:每年3 月15 日投入运行,11 月15 日退出运行。 24.电力系统中高次谐波有什么危害? 答:可能引起电力系统内的共振现象;电容器或电抗器的过热与损坏;继电保护 ...http://www.zzfangbao.com/xzs/5.html
14.防雷检测多久检测一次?防雷检测接地点定期检测有效期多长 接地装置定期检查: (1)变、配电站接地装置每年检查一次,旱季每年测量一次接地电阻; (2)车间电气设备的接地装置,每两年检查一次,旱季每年测量一次接地电阻; (3)防雷接地装置每年雨季前检查一次; (4)避雷针接地装置,每5年测量一次接地电阻; ...https://www.xytfl.com/article-detail/BGpEyrzN