奥门威尼斯网址开关设备对于数据中心正常运行时间的重要性,开关设备数据中心

开关设备对于数据中心正常运行时间的重要性,开关设备数据中心

在支持数据中心正常运行的所有电气和系统组件中,开关设备通常不被人重视,隐藏在数据中心设施的角落中。但是,如今数字化的快速发展正在改变开关设备的重要性,数据中心设施管理人员必须注意开关设备发挥的重要作用。

随着企业利用移动计算、物联网(IoT)等其他力量产生的海量数据来推动竞争优势,数据中心的作用从未如此重要,因为系统正常运行时间对业务成功越来越重要。业务中断不仅会影响生产力,还会造成重大的财务和声誉损失,影响市场地位。

奥门威尼斯网址 1

虽然发电机在发生短时间的电力干扰的情况下提供备用电源,但是最佳的设备正常运行时间需要可靠的配电系统,其中开关设备是最重要的。开关设备由用于控制、保护和隔离电气设备的电气隔离开关、保险丝和断路器组成,这与电力供应的可靠性直接相关,为整个数据中心设施供电。在很多情况下,电网和柴油发电机的电源都是通过并由开关设备控制的。因此,开关设备的停机时间意味着就是数据中心的停机时间。

开关设备的重要性日益突出

从历史上看,尤其是在数据中心领域中,开关设备主要提供短路保护功能,使其成为整个设施基础设施中相对被动的部分。设备管理人员只有在发生故障时才与设备进行交互,这种情况很少发生。但这些正式在变化。

随着数据消费的爆炸性增长以及数据中心的物理和计算规模的扩大(美国在超大规模数据中心的数量领先世界),对主动式能源保护和电气可靠性的需求也越来越强烈,这使得整个数据中心(包括开关设备)变得更具互动性和适应性。随着自动转换能力等新技术的进步,开关设备可以(而且必须)处理更多的电气操作,并在被要求操作时必须成功运行。例如,当恶劣天气导致电力设施停电时,开关设备负责自动重新配置配电线路以从电网切换到辅助的电力来源,即发电机。

那么,有着巨大的权力就需要承担巨大的责任。但是这种模式转变是困难的。在传统上使用开关设备很少,如果有的话,许多数据中心设施管工作人员可能没有意识到或解决设备转换的重要性。随着美国数据中心设施基础设施迅速老化,业务预算紧缩,员工和支持人数减少,正在进行的开关设备维护工作正在推迟,使电网的性能面临着一定的风险。这可能会造成在整个数据中心设施中出现故障、中断或电弧闪光问题的可能性。

维护的必要性

由于电气开关设备通常被认为是一个低维护量的产品,它通常是配电系统中最容易被忽视的部件。但是,与任何人工制造的设备一样,开关设备也面临一定的操作限制,需要定期维护以避免故障。就像人们为汽车或飞机提供服务一样,开关设备也必须得到维护,其使用周期与其环境成正比,以及如何处理。

巨大的电能不仅能够通过,而且还可以通过开关设备进行有效的路由和重新路由。这会给电气部件带来压力,特别是在环境不理想的情况下,例如当温度超出最佳性能区域、空气质量差或设备暴露在过度潮湿的环境中(值得注意的是,尽管数据中心内的机架和服务器环境受到严格管制,开关设备通常位于数据中心设施的其他部分,通常不具有相同的环境控制水平)。根据开关设备的类型,一些技术可能更容易受到环境的影响(空气绝缘开关最容易受到影响,惰性气体绝缘和屏蔽固体绝缘开关受到的影响最少)。

在制定开关设备维护计划时,首先要确定维修包括哪些内容:设备周围的环境和设备的职责。典型的问题包括:

  • 是否有空气污染物?
  • 是否有腐蚀性环境?
  • 是否有啮齿动物进入的可能性?
  • 温度和湿度是否符合要求?
  • 奥门威尼斯网址,开关切换有多频繁?
  • 设备上的电流是多少?与设备的额定值有多接近?
  • 正在切换什么水平的电流?

开关设备创新提高可靠性、节省时间和费用

随着行业的不断发展,成功的企业应将开关设备视为竞争优势,使其能够提供最高水平的电力可用性,同时节省时间和费用。

最近在开关设计方面的创新使数据中心人员能够安装和运行具有持续性能和较低风险的中压网络。例如,在美国引入屏蔽式固体绝缘开关设备(2SIS)技术带来了前所未有的可靠性和安全性,通过将固体材料封装在一个屏蔽绝缘的主要电路部件提供保护以防止内部电弧。这种设计大大减少对系统的损害的可能性,保护带电导体免受可能导致故障的灰尘、水分、湿度和其他环境因素的影响,降低了维护人员触电、弧闪危险、电弧放电危险的风险。

设备成本也是一个关键因素,可以通过承诺采用更新的设备来弥补。现代的基础设施允许使用更小的设备,从而能够在较小的空间内提供相同的功率。现代化技术也是高度模块化的,需要较少的维护和不太复杂的维护,大大降低了相关成本。此外,在更换电力基础设施的同时,可以评估增加配电电压,这也大大节省了成本(减少电缆尺寸、减少电缆长度、减少导管/托盘、减少安装的工作量)。

结论

数据中心内的任何配电和备用系统中,开关设备往往是价值最受低估的组件。但是,随着老化的电气设备需要维护,将重要的数据中心性能置于风险之中,数据中心设施管理人员是否真的能够忽略这个经常被忽视的组件,以确保正常运行时间?

数据中心电力故障的影响可能会以多种方式使企业付出代价,虽然不间断电源(UPS)和发电机等备用系统在需要关闭主电源或发生单点故障时提供备用电源,但现代开关设备是一个可靠的电力网络的核心和灵魂,必须妥善维护。

在支持数据中心正常运行的所有电气和系统组件中,开关设备通常不被人…

奥门威尼斯网址 2

对于数据中心来说,在电力系统的运行过程中,不可避免地会出现故障。尽管故障出现的几率很小,持续的时间也不长,但产生的后果却往往十分严重。电力系统发生故障时,运行状态将经历急剧变化。所以UPS系统的应用对于机房电力系统不间断运行来说尤为重要。对UPS系统日常检测、维护也更是重中之重。

奥门威尼斯网址 3

奥门威尼斯网址 4

俗话说“失之毫厘,谬以千里”,时间的精准度对于我们的工作、生活都非常重要。2000年的千年虫事件以及2017年元旦全球多一秒事件,都引起了人们的高度关注,尤其是数据中心行业。数据中心里很多系统都依赖时间来正常运行,人们要认真评估这一时间变化对内部运行设备的影响,如果设备不能够自行调整时间,则就会与实际时间产生偏差,因此而带来一系列误判,导致问题。所以,时间精准度对于数据中心来讲是非常重要的参量。

UPS检测与维护

随着社会发展和科技进步,
数据中心面临的风险和威胁越来越大,一旦数据中心因为突发灾难造成关键业务数据丢失或信息系统故障,将严重影响企业业务的正常运营,甚至威胁到国家安全
。而包含有大量电子设备的数据中心各系统在运行过程中不可避免地都会发生因故障而失效的时候。硬件故障、软件错误、人工操作失误甚至对系统的恶意破坏,这些都可能导致系统运行的非正常中断,影响系统中数据的正确性或破坏系统的数据库,使部分甚至全部数据丢失。所以如何保证数据中心的业务连续运营是数据中心管理者们首先要考虑的重要问题。

该中心将利用Analytical Graphics公司软件降低卫星碰撞和周率冲突的风险

数据中心的时间有两个维度含义,一个是相对时间。比如很多的网络设备要启用OSPF、ARP、MAC等各种协议,每种协议都有各种各样的定时器,以便实时判断协议状态是否有变化。OSPF邻居要通过一定间隔时间收发Hello报文保持邻居状态为Full,一旦超过三个Hello报文的发送时间间隔,一个Hello报文也没有收到,就认为这个邻居状态发生了变化,邻居状态由Full切换到Init或Down,记录Hello报文超时的时间定时器要准确,周期性地记录每个Hello报文的收时间,以便统计准确;另一个是绝对时间,就是北京标准时间,每天我们在新闻联播时看到的时间,2000年的千年虫事件以及2017年元旦全球多一秒事件都说的是这个时间。数据中心有很多设备,这些设备运行中会产生很多的日志和告警信息,所有的信息都有时间纪录,只有这个时间准确,才能通过这些时间来进行分析问题。比如数据中心发生了业务中断,我们首先要知道是什么时候中断的,持续多长时间,与哪些设备有关,然后再去查找这个时间点,设备上留下的相关纪录,时间的准确性对于分析业务中断原因非常关键,如果没有各个设备的准确运行时间,就无法判断哪些信息是中断时报出的,哪些信息与故障有关,故障将很难分析出结果,所以绝对时间也非常重要。

机房定期巡检和维护是降低事故发生的最有效方式,降低事故发生的重要环节是对于机房蓄电池,UPS电源,机柜PDU配电柜等温度检测的合适专业的测试工具,其中包括蓄电池测试仪,红外温度测试仪,内阻测试仪等,利用专业的机房测试仪可以提供专业的数据参考,从而及时更新蓄电池UPS配电柜和开关等,才能有效的降低事故的发生率。

数据中心保持业务连续最大的威胁不是来自于火灾、地震等小概率、大影响的灾难,
更多地受到诸如人为错误、流程缺陷等事件的威胁。这些威胁时刻潜伏在企业的周围,
随时一触即发,会影响数据中心的业务连续性, 使企业造成重大损失。

[据美国SPACE NEWS周刊2010年8月2日刊报道]
太空数据协会7月27日启动了太空数据中心的初始运行,一个自动太空态势感知系统将降低卫星碰撞和周率冲突的风险。

无论是相对时间,还是绝对时间,对于数据中心运行都非常重要,同时也要保证两个时间的准度,如果精度太差,也会产生不少问题。上面也有介绍,会导致网络协议的各种定时器判断不准确,发生故障时无法明确哪些是故障时间报出的,这只是举个示例,其实还有更多的方面。如果相对时间不准,误差大,服务器上的应用系统也会出问题,如果要是银行的存取款业务系统,每存一笔钱时间都慢慢将误差拉大,可能到最后,连储户上的钱数数据记录都出现错误,甚至出现丢失的情况。如果相对时间不准,二三层转发网络,表项老化的时间都不一致,有长有短,导致表项学习不稳定,流量转发出现丢包,严重的会导致表项无法学习,造成网络中断;如果是绝对时间不准,数据中心所有设备记录的信息都是不准确的,各个设备之间的信息也没有可对比性,相互之间的影响和作用就无法从时间轴上分得清楚。在一些重要变更和操作时,由于绝对时间的不准确,会导致操作的时机不是最优的,在变更和设备准确上不同步,从而会产生这样那样的问题。

奥门威尼斯网址 5

今年以来,数据中心故障引发的业务故障触目惊心:

太空数据中心的初始能力包括对Inmarsat、Intelsat和SES三家公司126颗静地卫星进行联合评估。

既然时间准度对数据中心这么重要,那就要提升时间准度了。不过,提升时间准度可不是一件轻松的事儿。首先,对于相对时间,这个和北京时间无关,与个体设备有关,这个只能靠设备内部的实现来保证。很多网络设备在内部会设定很多定时器,这些定时器专门记录各种协议的运行时间,以便判断协议的状态是否正常,这个时间一般通过CPU的晶振频率计算获得。这样相对时间的准确度和设备的CPU性能有很大关系,往往是越高端的设备采用的CPU晶振频率越准,当然这类设备的价格也要高很多。其次,对于绝对时间,为保证数据中心内部所有设备的时间一致,可以通过将所有设备的时间对一遍,尽量做到时间同步,不过每个设备的时间准度不同,有的设备运行个一年半载,偏差可能达到数十秒,而有的设备偏差却很小,这样虽然当初时间都对过,不同设备的运行时间是一致的,随着运行时间越来越长,误差变得越来越大,所以这种方式不可行。更多的数据中心是通过设定一个NTP服务器,这个服务器可以是网络设备也可以服务器,甚至是专用的授时设备,然后数据中心里所有设备都通过这台设备来获取时间,从而整个数据中心里的设备运行时间是完全一致的。如果采用一般的网络设备做NTP服务器,运行个几个月,这些服务器运行时间与实际时间偏差可能达到数十秒,虽然这些时间偏差比较大,但仍能保证这些设备之间的相对时间是一致的,并不妨碍各种工作的开展,包括问题定位。不过,有的时候数据中心业务对时间要求比较高,这时就需要使用专用的授时设备做NTP服务器。授时设备运行时间误差小,精度可以达到毫秒甚至微秒级,与北京时间保持完全一致,即使运行时间久了,偏差也在微秒级,这就保证了数据中心里所有设备与实际北京时间完全一致,避免因为时间不准确,导致这样那样的问题。除了授时系统,还有时间频率基准,守时用原子钟,星载原子钟等技术,采用这些技术都可以大幅提升数据中心的时间准度。

UPS蓄电池的重要性

2013年1月31日,亚马逊Amazon.com主页出故障,一小时的中断时间让该公司错失了近500万美元的收入;2013年1月28日,Facebook网站业务中断;

2011年初进入全面运行之后,太空数据中心还将支持减轻无线电射频冲突。该中心的软件系统是由美国分析制图公司研制运行的。

时间准度已经成为数据中心运行中至关重要的参量,一切的数据中心活动都和时间准度有密切关系。数据中心对高精度时间频率的需求越来越强烈,需要一系列精度越来越高的计时器具,同时要在各个设备之间做好时间同步工作,保持设备之间时间的一致性,以便于开展各种数据中心运维工作。

UPS电源是许多机房的动力保证,保证了供电的连续性,保证了供电系统的安全性,UPS电源时刻发挥着重要的安全保障作用,蓄电池是UPS重要组成部分,蓄电池作为动力提供的最后保障,无疑是UPS电源中的最后一道保险,其质量的好坏直接关系到UPS是否正常工作。根据调查统计,UPS电源无法正常供电所引发的事故分析发现,其中有50%以上事故是由于蓄电池故障引发的,蓄电池是UPS电源事故发生率居高不下的一个环节,由此可见提高蓄电池运行安全可靠的必要性和迫切性。

2013年2月1-2,微软的Office
365编辑套件和Outlook.com邮件服务陆续出现了业务中断;

太空数据协会是2009年由Inmarsat、Intelsat和SES三家世界一流的卫星通信公司成立的国际组织,致力于安全,负责卫星运营,包括防止卫星碰撞,提高卫星通信。太空数据协会将太空数据中心获得初始运行能力视为一个里程碑,目前该协会正在快速扩展卫星运营商成员,获得更多高精确数据。

【编辑推荐】

UPS蓄电池安全隐患

2013年6月3日,Twitter服务业务中断,Twitter用户无法访问该服务来发送或读取内容;

1.蓄电池寿命无法达到设计要求,在实际应用中,蓄电池往往在使用1年后就开始出现劣化,使用超过3年的蓄电池劣化程度非常严重,几乎很少能够达到标称容量。这其中存在两个方面的问题,其一,蓄电池厂家对于蓄电池的使用寿命年限是在较为理想的状态下预测的;其二,在使用中对于蓄电池的管理以及维护,没有有效的进行,造成蓄电池在劣化早期,没有及时发现,致使劣化积累、加剧,容量累积亏损导致蓄电池过早报废。

2013年8月19日,因数据中心网络硬件出现故障,部分微信用户发现无法收发信息,还有人的微信自动退回至软件登录界面后发现无法再登录。

2.对于蓄电池的充放电缺乏记录及监控,蓄电池运行情况不明。

这些大型的互联网数据中心都会频繁出现业务中断的故障,其它的数据中心就更是故障不断了。当然这些企业也知道业务持续中断意味着什么,可有时却又在数据中心故障面前显得无能为力。

3.由于没有良好的手段以及管理,蓄电池的使用者对于蓄电池运行情况缺乏足够的了解,特别是对于蓄电池历史数据的整理以及分析。而这些数据的整理与分析需要较强的专业知识。

表1列出了各个行业数据中心中断一个小时造成的损失预估,可见损失是要按分钟来计算的,数据中心无法提供服务就意味着业务的减少,时间和金钱都将受损,业务连续性对数据中心来说重要性不言而喻。在当今信息高速发展的社会,人们的工作、生活高度依赖于各类信息的传递与管理。而这些信息处理的背后都有数据中心在高效运转,很难想象如果没有数据中心这个世界怎能运转。人们越是依赖于数据中心,数据中心对人们就越重要。而提供稳定、持续的服务,这是人们对数据中心的基本要求。现实中这种要求却很难做到,这是因为数据中心是一个信息技术高度集中的场所,技术实现复杂,备份技术很多但要做到全部备份成本就太高,并且过度的备份也增加了系统运行的复杂性,反而带来了整体运行的不稳定。

4.对于蓄电池性能状况不明,特别是UPS蓄电池是否具备瞬间大电流供电能力不了解。

奥门威尼斯网址 6

5.对于蓄电池性能状况,如蓄电池的电压均衡性、当前容量,无法清楚实时了解。

表1:数据中心业务中断造成的损失预估表

6.缺乏温度补偿及环境温度的监测。

那么如何才能有效保证数据中心的业务连续性?

7.UPS蓄电池缺乏检测手段和维护仪表,重视程度不足。

要保持数据中心业务的长期连续性困难重重,因为保持数据中心业务连续是一个长期、全面、持续完善的过程。在完成数据中心建设之后,还应考虑如何确定业务需求和进行应急响应等问题,为保证数据中心业务连续性,需要从组织和团队、IT技术、基础设施、业务恢复到公共关系管理等各个方面做工作。这些工作涉还可能涉及机构高管层、科技、财务、审计等各个部门,因此为保障数据中心业务的连续性需要全员参与,是一个复杂的即涉及技术又涵盖管理的综合问题。

【编辑推荐】

关于如何保持业务的连续性问题已经引起了各类专家的热议,对于数据中心更是需要保持业务的连续性。业务连续性管理已经演变成了一门管理学科,在数据中心中得到了越来越多的应用。所谓业务连续性管理,即Business
Continuity
Management,简称BCM.这个概念最早脱胎于传统的IT备份与容灾恢复计划,业务连续性管理是一个一体化的管理过程,通过这一过程,可以识别威胁组织机构的潜在风险,并提供一个指导性框架来建立组织机构的恢复能力和有效应急响应能力,从而保护利益相关者的资产,组织机构的信誉、品牌及其创造价值的活动。BCM的前身是灾难恢复(DR)和业务连续计划(BCP),真正受到重视是在20世纪90年代,尤其是2001年美国911恐怖事件之后,开始了快速发展。作为一个相对较新的概念,业务连续性管理相关工作在中国刚刚起步,在2003年SARS期间得到重视,并在2008年汶川地震时灾后出列方面取得了成就。目前,BCM已经在越来越多的企业中得到普及,尤其是数据中心领域。大约有85%的全球性企业实施了灾难恢复(DR)计划,但是仅有15%具备了完善的业务连续性计划(BCM),即仅有少数企业的灾难恢复计划是以保障业务连续性为目标。如果没有一个完善并具可操作的连续性计划,是无法确保达到灾备恢复预期目标的。

BCM主要用于解决数据中心业务连续性两个方面的问题:

(1) 高可用性

是指提供在数据中心部分故障的情况下,仍能提供继续访问应用的能力。不论这个故障是业务流程、物理设施、IT软/硬件的故障。

(2) 灾难恢复

是指当灾难破坏数据中心时在不同地点、不同硬件设备上恢复数据的能力。上述两个方面不是相互孤立的,而是相互关联、有交叉的。为保证数据中心的业务连续性,高可用性和灾难恢复要映射到数据中心的各个层面,从用户终端到服务器、
存储器、甚至包括机房环境。国际标准ISO20000和ISO27001建立了规范的IT服务和信息安全的管理体系,在ISO20000的框架内,就包含了可持续性管理流程的内容。

持续性管理具有以下活动和过程:风险和灾难规避评估、确定整体恢复策略、确定与建设业务持续性计划、设计开发持续性和灾备预案、预案演练、预案维护。通过这些活动可以将数据中心业务中断的风险有效降低。

数据中心的管理者已经意识到了数据中心业务连续性的重要性,关键是要采取有效的BCM管理,确保数据中心不再发生业务中断。

【编辑推荐】

发表评论

电子邮件地址不会被公开。 必填项已用*标注