闲话IT运维-什么是IT运维?

IT运维自动化是指将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

【51CTO专稿】在人们的印象中,只有大型的互联网企业(如:百度、新浪、淘宝等)才能用到自动化运维部署,其实不然,现在很多其他类型的企业也在运用自动化运维部署这一技术。立足于交通行业,营运车辆监控管理和服务为基础,专业从事交通信息化领域的技术研发、解决方案提供、运营服务和相关增值服务于一体的全国性综合交通信息服务提供商北京中交兴路信息科技有限公司便是如此。

据业内人士介绍,目前,国内的制造业规模庞大,大型国有企业占主导地位,外资制造企业的进入带来了新的管理方式和手段,由此推动了国有企业对信息化的认识,推动了国内制造业的发展,但大量的制造业的信息化水平还停留在较低水平。
制造业信息化十大痛点
1.中国制造业还处于简单运维
制造业制造IT运维还处在简单运维阶段,需要人工干预,例如桌面级的系统故障,例如操作系统安装部署、应用系统部署调试等,而IT运维最终应该达到一种自动化运维。
这正是DELL方案解决专家团所提倡的,简单运维和自动化运维有一个衔接,是规范化运维,但是目前国内绝大多数的制造企业均处于简单运维的阶段,耗时、耗费人力成本,反而效果很差,用户体验无法提升,以致于IT部门在企业中地位不高。
2.IT部门工作难获认可
在公司中,员工和领导存在对IT部门是烧钱的部门的误解,IT部门的真正价值是为企业生产经营保驾护航,IT部门缺少一个有力的工具,帮助他们从这种简单运维工作中提升出来。简单运维、规范化运维、自动化运维是逐级上升的关系,国内企业需要将简单运维阶段中遇到的问题固化到像卡西亚一样的平台上,通过这个平台,逐渐上升到规范化运维,例如出现OFFICE问题,不需要工程师亲自维修,通过标准运维流程,快速反应,通过半自动方式解决问题。
3.流程未规范化
目前,一线对于规范化、自动化运维的声音非常强烈,一线的员工经常抱怨,他IT知识本身有不足,但必须马上上手,ERP系统很难,使用调试问题频出等,而IT部门工程师仅仅是一次性处理了问题,但遇到问题的本人并不知道这是如何解决的,此外问题是否真正解决难以鉴别,可能短期还将出现同样的问题,以致于各个环节的员工都有怨言。
各个环节没有规范化流程,工程师的工作得不到认可和体现,这是制造业普遍的现状。
4.升级困难
目前,一些已经应用IT运维软件的制造企业也面临升级困难的问题,大部分软件升级均需人工干预,升级过程复杂,且容易出错,导致系统原有的数据出错或丢失,到头来得不偿失,采取不升级的方式,又使软件新的功能无法得到应用。
5.对IT员工依赖性高,IT员工成本高
制造业现在所处的简单运维阶段,造成公司对IT员工依赖性过高、IT员工成本过高的问题。例如,资深员工离职,新员工需要招聘成本,上手成本,这中间耗费大量的时间成本。
6.不同系统之间连接困难
有很多国企导入了很多系统,如营销系统、ERP系统等,但这些系统并没有明显提高效率,反而让员工感觉难以应付,系统越来越多,他们之间的关联性越来越复杂,成本也有增加,从IT运维工程师角度来说,工作量大量增加,而其他部门的抱怨也越来越多,上层领导也是如此,各系统之间割裂,形成很多信息孤岛,使信息系统之间难以同步。
7.IT资产信息难以实时获取
在制造类企业,有PC定期报废更新的要求,这些数据与财务密切相关,特别是一些上市企业,在IT信息披露上有严格要求,他们的ERP、财务系统等资产信息,需要某一天即使披露信息,人工方式统计出来的信息并不准确。
8.数据传输安全隐患
数据安全问题也一直是制造业头疼的问题。财务数据、资产信息等敏感信息需要保护,感染病毒,恶意软件侵害,这些都将影响系统的稳定性和有效性,进而影响公司正常运营。
9.中小企业资金问题
中小企业往往面临资金不足、成本压力等问题。购买一个IT运维系统的支出,将对资金紧张的中小企业形成巨大压力,此外导入IT运维系统所需的一些隐性支出,例如网络改造资金等。所有支出零零总总加起来,对中小企业造成巨大压力,资金周转困难,以致于他们对引入IT运维系统望而却步。
10.成本控制困难
管理者十分关注IT部门人员部署,现有人员能否满足IT系统需求,IT部门员工能力,IT员工流动率等,这些都影响企业成本,而由于IT员工工作难以获得认可,体验不理想,内部诸多抱怨,导致这方面的成本控制并不理想。

(1)建立IT运维自动化管理平台

说起IT运维,不同的人有不同的理解,有的人认为IT运维就是修电脑、看机房的;有些人认为IT运维是负责公司服务器管理、网络维护的;更专业些的认为IT运维是负责应用系统维护、保证应用系统安全可靠运行的。这些说法都有其正确的一面,也都不全面。不同的场景下IT运维涉及的内容不同,工作职责范围也不同。

奥门威尼斯网址,传统运维管理方式存在的问题

中交兴路走向自动化运维之路

    第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

IT运维简单点说就是负责IT系统的运行维护工作,保障系统安全稳定运行,给用户提供有效的IT服务。IT系统范围很广,包括每个企业都用到的OA系统,我们邮件、考勤、差旅报销全靠它;还有企业内部的进销存、客户关系管理、物流管理、计费管理系统等等。有的系统是辅助我们日常工作,有的系统直接就是我们的生产系统,系统如果停止服务就只能关门下班了,这种场景下保障IT系统稳定运行的运维部门就显得尤为重要。

目前许多企业的IT运维已经实现从人工运维到计算机管理,但延展咨询在同客户的交流中发现其中很多企业的IT运维管理还只是处在“半自动化”的运维状态。因为这种IT运维仍然是等到IT故障出现后再由运维人员采取相应的补救措施。这些传统式被动、孤立、半自动式的IT运维管理模式经常让IT部门疲惫不堪,主要表现在以下三个方面:

为了了解自动化运维在中交兴路的应用情况,记者专程采访了中交兴路负责运维自动化软件开发领域的运维工程师邓磊(博客)。谈到以前的传统运维的经历,邓磊老师不禁感慨一番:“传统运维主要通过手动或者写脚本方式来进行维护、升级、上线应用平台,在工作的时候,没有更新与修改的日志,都是研发对平台有了最新的版本,运维就得升级,有的时候不知道升级什么内容,如果升级的次数过多,间隔过短,都不知道修改与升级了什么,一旦出现事故,就会有相当长的时间来解决此问题。

    (2)建立故障事件自动触发流程,提高故障处理效率

根据企业规模和用户分类来看,IT运维的工作职责、能力要求也有很大的区别。

(1)运维人员被动、效率低

相对于传统的运维而言,自动化运维有很多优势,以下三个方面更为突出:

    所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。

公司规模.png

在IT运维过程中,只有当事件已经发生并已造成业务影响时才能发现和着手处理,这种被动“救火”不但使IT运维人员终日忙碌,也使IT运维本身质量很难提高,导致IT部门和业务部门对IT运维的服务满意度都不高。目前绝大多数的企业IT运维人员日常大部分时间和精力是处理一些简单重复的问题,而且由于故障预警机制不完善,往往是故障发生后或报警后才会进行处理,,使到IT运维人员的工作经常是处于被动“救火”的状态,不但事倍功半而且常常会出现恶性连锁反应。

(1)有记录可循:比如使用Svn进行版本控制,一旦新版本出现问题,可以恢复旧版本,为解决问题提供了很大的便利。

    (3)建立规范的事件跟踪流程,强化运维执行力度

运维技能的对照说明:

(2)缺乏一套高效的IT运维机制

(2)使用开源的自动化软件:比如在进行系统安装的时候,使用Cobbler或者Kickstart,进行配置的时候使用Puppet,进行监控的时候使用Nagios、Cacti、Zabbix等,通过这些软件能极大的帮助我们对系统进行安装、部署与监控,节省我们的时间。我们不但要能实时的了解系统的运行情况,还需要能预判系统将要出现的问题,尽量的在出现问题前解决问题,这才是我们运维真正需要做的,而不是忙着救火。

    IT运维自动化管理的实现首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

运维技能.png

目前许多企业在IT运维管理过程中缺少自动化的运维管理模式,也没有明确的角色定义和责任划分,使到问题出现后很难快速、准确地找到根本原因,无法及时地找到相应的人员进行修复和处理,或者是在问题找到后缺乏流程化的故障处理机制,而在处理问题时不但欠缺规范化的解决方案,也缺乏全面的跟踪记录。

(3)有相应的制度:想要实现自动化制度,就一定要有自动化运维的实行标准,出现各个问题,都有相应的解决方法,这样的做事效率将会有很大的提升。

    (4)设立IT运维关键流程,引入优先处理原则

1、传统企业

(3)缺乏高效的IT运维技术工具

建立高效IT运维自动化管理部署

    设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。

这个传统企业主要相对于互联网企业而言,服务不是通过在线网上来提供的,更多的是提供线下服务,譬如,传统的超市、电力、石油、制造型企业。这些企业通常只有内部用户,包括内部的办公自动化(OA)、客户关系管理系统(CRM)、企业资源计划系统(ERP)等等。这类企业大部分的IT系统都是购买第三方的。

随着信息化建设的深入,企业IT系统日趋复杂,林林总总的网络设备、服务器、中间件、业务系统等让IT运维人员难以从容应对,即使加班加点地维护、部署、管理也经常会因设备出现故障而导致业务的中断,严重影响企业的正常运转。出现这些问题部分原因是企业缺乏事件监控和诊断工具等IT运维技术工具,因为在没有高效的技术工具的支持下故障事件很难得到主动、快速处理。

记者与邓磊老师谈到中交兴路目前的自动运维情况时,他谈到:”从今年2月份开始,中交兴路就开始了自动化运维的部署,系统部署类工具使用Cobbler;这个软件是朋友推荐的,加上测试过一段时间,使用后觉得比Kickstart更方便,Cobbler支持命令行管理,web界面管理,还提供了API接口,可以方便二次开发使用。配置类工具选择Puppet;可管理配置文件、用户、Cron任务、软件包、系统服务等。非常的方便。监控类工具是自己开发的监控系统Php+Mysql+Shell。”

    总之,实现IT运维自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

** 小型企业
**(几十人):通常购买现成的甚至于用一些免费的系统,通常是对生产提供辅助性的工具,譬如OA系统,对系统的功能和可靠性要求不高,这种场景下只需要一两个熟悉计算机技术的人兼职即可,不需要专业的运维人员,这就是有些人眼里修电脑、装系统的。这种情况下系统挂了半天也无大碍,对正常生产没有特别的影响,最多有人抱怨一下。

IT运维自动化迫在眉睫

公司监控系统有3个阶段:

第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实…

运维技能只需要L1级别

尽管IT运维管理的技术在不断进步,但实际上很多IT运维人员并没有真正解脱出来,原因在于目前的技术虽然能够获取IT设备、服务器、网络流量,甚至数据库的警告信息,但成千上万条警告信息堆积在一起更本没法判断问题的根源在哪里。另外,目前许多企业的更新管理绝大多数工作都是手工操作的。即使一个简单的系统变更或更新往往都需要运维人员逐一登录每台设备进行手工变更,当设备数量达至成百上千时,其工作量之大可想而知。而这样的变更和检查操作在IT运维中往往每天都在进行,占用了大量的运维资源。因此,实现运维管理工作的自动化对企业来说已迫在眉睫。

1、 使用Nagios+Cacti

**
中等规模**(几百人以上):这部分企业一般会考虑定制化自己的IT系统,并且会架设自己的服务器或者将服务部署在云环境下,这种情况下通常每年会有IT方面的预算,并且会购买IT厂商的运维服务,但是为了沟通方便和从减少运维成本角度考虑(有的上门服务很贵还不及时),会设置专门的IT运维人员,通常会有几个人的IT小组或者部门。这种情况下一般需要运维人员是个全能选手(技术广度有余、深度不足),包括会装机、会网络管理、会应用部署、会数据库维护
,小毛病能够自己解决。通常是直接影响生产的系统,如果宕机影响就比较大,会影响到正常的商业活动、影响收入,譬如超市的POS机系统宕机,收不了钱,卖保险的系统宕机无法正常给用户办理保险业务。因为事关正常的生产活动,对运维人员的技能和服务意识有较强的要求,对运维流程也有较高要求,不能随意动生产环境。

现在随着IT运维管理工作的复杂度和难度的大大增加,仅靠过去几个“运维英雄”或“技术大拿”来包打天下已经行不通了,企业开始需要运用专业化、标准化和流程化的手段来实现运维工作的自动化管理。因为通过自动化监控系统能及时发现故障隐患,主动的告诉用户需要关注的资源,以达到防患于未然。例如,全天候自动检测与及时报警能实现IT运维的“全天候无人值守”,大大降低IT运维人员的工作负担。而且,通过自动化诊断能最大限度地减少维修时间,提高服务质量。因此,
对于越来越复杂的IT运维来说,将纯粹的人工操作变为一定程度的自动化管理是一个重要发展趋势。

在这个阶段主要是通过Nagios监控服务运行情况,使用Cacti监控系统资源情况,虽然软件监控的时候没问题,但由于公司在全国20个省都有机房,使用Nagios+Cacti监控起来十分麻烦,使用Nagios分布式监控也十分麻烦;

运维技能需要达到L2级别及以上

首先,IT运维流程自动化能够提高流程的可控性,可以基于业务需求来制定个性化的流程,使企业领导有机会看见他们的业务流程,对企业流程有一个深刻的分析和理解,进而改造和优化流程。

2、使用Shell脚本监控公司服务

大型企业(几千人以上):大型企业财大气粗,为了配合企业的形象,会成立相对独立的IT中心,提供高效的IT服务。这种场景下大部分是支撑分公司、门店业务系统的正常运行,非关键业务企业通常会购买定制第三方IT产品,核实业务有的也会自己研发。有专门的运维队伍,分工具体,其中应用维护、主机维护、网络维护、系统优化都有专门分工,对运维的规范有较深入了解,运维流程相对健全。此时IT中心又可以称为业务支撑中心,主要支撑公司的主营业务发展,对公司的市场经营活动起到强有力的支撑作用。这类企业中对OA等办公系统的支撑不是最主要的,并且必要的情况下会引入外包的运维服务。

其次,IT运维流程的自动化能提高透明度。因为随着业务需求的变化可能会有多个版本出现,手工流程的不透明将会给流程定制和优化带来相当大的困难,而自动化流程可以使用户能够一目了然的看到整个流程的各个节点运转情况,自动化工具潜移默化地提升业务保障能力。

在这个阶段主要是通过Shell脚本定制的,根据公司的实际情况来进行专门监控,虽然通过这样的方式监控很方便,但在进行日常维护的时候很麻烦,100+以上台机器,每天光巡检就是累死人的工作量。

运维技能需要到达L3、L4级别

再者,运维系统实行了自动化监控以后,通过工具自动监控对人的工作是一种减负,也是一种降低成本的表现。

3、使用我自己搭建的Php+Mysql+Shell监控系统

2、互联网企业

IT运维自动化管理的具体内容

通过我自己搭建的监控系统监控系统,解决了前2个问题,不仅能通过Shell脚本根据公司的实际需求来监控,而且能通过Php来在Web端查看监控的内容,并且能通过Gnuplot软件生成相应的数据图。”

互联网企业也有内部用户,但一般不是重点,重点是外部用户,可能数百人的公司就支撑着几百万用户使用的网站系统。在这种情况下公司的内部用户通常信息化能力都比较高,内部OA等投入不会很大,公司的大部分人力都投入到生成系统(在线站点)的开发和维护中去。中小型的互联网企业开发、维护区分不是很明显,大家一起投入保障系统安全稳定运行。大型互联网企业研发、运维会进行分拆,运维重点是保障系统的快速部署、信息安全、系统优化、日常巡检、例行作业维护等。另外这类企业中的运维人员更能接触和拥抱新技术,在运维自动化等方面投入会更多。

IT运维已经在风风雨雨中走过了十几个春秋,如今它正以一种全新的姿态摆在我们面前–自动化,这是IT技术发展的必然结果。现在IT系统的复杂性已经客观上要求IT运维必须能够实现数字化、自动化维护。所谓IT运维管理的自动化是指通过将日常IT运维中大量的重复性工作小到简单的日常检查、配置变更和软件安装,大到整个变更流程的组织调度)由过去的手工执行转为自动化操作,从而减少乃至消除运维中的延迟,实现“零延时”的IT运维。

自动化运维部署细节分析

这层面运维技能需要到达L3、L4级别

简单的说,IT运维自动化是指基于流程化的框架,将事件与IT流程相关联,一旦被监控系统发生性能超标或宕机,会触发相关事件以及事先定义好的流程,可自动启动故障响应和恢复机制。自动化工作平台还可帮助IT运维人员完成日常的重复性工作(如备份、杀毒等),提高IT运维效率。同时,IT运维的自动化还要求能够预测故障、在故障发生前能够报警,让IT运维人员把故障消除在发生前,将所产生损失减到最低。

“自动化运维固然优势明显,但是在部署的过程中也应注意一些小细节,”邓磊老师谈到三点,

IT运维自动化的工具

一、选择一个适合自己的软件,要对相应的软件做相应的了解,比如你想进行系统部署类的软件,你是选择Kickstart还是Cobbler,哪个的功能更适合你,哪个你更熟悉的配置与管理,同时一定要在虚拟环境测试成功后,在试运行环境里测试,都没有问题在再生产里部署。

对于企业来说,要特别关注两类自动化工具:一是IT运维监控和诊断优化工具;二是运维流程自动化工具。这两类工具主要应用于:

二、一定要有一个完整的思路,不要想做什么就做什么。比如你在进行配置类如Puppet的安装与部署的时候,如果你没有一个完整的思路,想一个做一个,比如域名采用什么方式都不考虑、主从端的时间都不同步、主从的IP不能互相平通,那么你肯定做一个失败一个,不能成功实行运维自动化。

监控自动化,是指对重要的IT设备实施主动式监控,如路由器、交换机、防火墙等;

三、实现运维自动化要有相应的流程与制度,如果你只是通过软件来实现了自动化,但在流程与制度上没有相应的措施,比如想通过Svn+Puppet对监控系统进行版本控制与自动化的部署的时候,研发与运维随意的对Svn内容进行修改与删除,那么运维自动化不如不实行,一但这样的实行,你出现问题的机率会非常的大,而且问题的解决时间也会非常的多,得不偿失。”

配置变更检测自动化,是指IT设备配置参数一旦发生变化,将触发变更流程转给相关技术人员进行确认,通过自动检测协助IT运维人员发现和维护配置;

下面是某公司事故升级与处理流程图,从用户的问题反馈到各部门之间的调查分析、协调工作都有详细的规划。

维护事件提醒自动化,是指通过对IT设备和应用活动的时时监控,当发生异常事件时系统自动启动报警和响应机制,第一事件通知相关责任人;

奥门威尼斯网址 1

系统健康检测自动化,是指定期自动地对IT设备硬件和应用系统进行健康巡检,配合IT运维团队实施对系统的健康检查和监控;

总结:

维护报告生成自动化,是指定期自动的对系统做日志的收集分析,记录系统运行状况,并通过阶段性的监控、分析和总结,定时提供IT运维的可用性、性能、系统资源利用状况分析报告。
编辑本段建立高效IT运维自动化管理的步骤

自动化运维会给IT人员带来便利,同时会减少IT人员的投入,在今天这样硬盘、CPU价格低廉的日子,公司的服务器数量会增加的非常的快,如果还是向以前那样通过手工或者脚本来升级、部署、修改系统的话,你会发现你的工作时间严重不足,而且出现问题的机率也很大,解决问题的时间也会很长,每天忙着救火,自己累不说,领导也对这样的运维不满意,职位与薪资自然无法得到增长。如果你会自动化运维的话,你就会发现,其实管理100+的机器非常的简单,一个人就可以做到系统部署(使用Cobbler)、系统软件部署与管理(使用Puppet)、系统服务与资源的监控(使用Nagios+Cacti或者其他),通过这些开源的自动化运维软件,来减少我们的工作量,减少错误产生频率,增加我们的休息时间,来使我们能有更多的时间来学习与做其他自己想做的事。

(1)建立自动化运维管理平台

IT运维自动化管理建设的第一步是要先建立IT运维的自动化监控和管理平台。通过监控工具实现对用户操作规范的约束和对IT资源进行实时监控,包括服务器、数据库、中间件、存储备份、网络、安全、机房、业务应用和客户端等内容,通过自动监控管理平台实现故障或问题综合处理和集中管理。例如,在自定义周期内进行自动触发完成对IT运维的例行巡检,形成检查报告。包括自动运行维护,以完成对系统补丁的同步分发与升级、数据备份、病毒查杀等工作。

(2)建立故障事件自动触发流程,提高故障处理效率

所有IT设备在遇到问题时要会自动报警,无论是系统自动报警还是使用人员报的故障,应以红色标识显示在运维屏幕上。然后IT运维人员只需要按照相关知识库的数据,一步一步操作就可以。因此,企业需要事先建立自动工单式流程管理,当设备或软件发生异常或超出预警指标时会触发相关的事件,同时触发相关工单处理流程给相关IT运维人员。IT运维人员必须在指定时间内完成流程所规定的环节与工作,以提高IT运维响应问题的效率。

(3)建立规范的事件跟踪流程,强化运维执行力度

IT运维自动化管理建设时,首先需要建立故障和事件处理跟踪流程,利用表格工具等记录故障及其处理情况,以建立运维日志,并定期回顾从中辨识和发现问题的线索和根源。事实上许多实践也证明,建立每种事件的规范化处理和跟踪指南,可以减少IT运维操作的随意性和强化运维的执行力度,在很大程度上可降低故障发生的概率。同时,用户还应可以通过自助服务台、电话服务台等随时追踪该故障请求的处理状态。

(4)设立IT运维关键流程,引入优先处理原则

设立IT运维关键流程,引入优先处理原则是指要求CIO定义出IT运维的每个关键流程,不仅仅是定义流程是什么,还包括要指出每个关键流程对企业有什么影响和意义。同时,在设置自动化流程时还需要引入优先处理原则,例行的事按常规处理,特别事件要按优先级次序处理,也就是把事件细分为例行事件和例外关键事件。

变革带来的思考

当变革产生的时候,如果不能主动应对变革,必然会产生失衡,失衡的后果就是信息化建设的坍塌。科技的发展带来了新的IT运维需求,相关服务提供商需
要做的事情是找到应对需求变化的理论方法和技术手段。而用户的信息化管理者需要做的则是找到合理的解决方案并且快速的部署实施。

实际上,无论用户还是IT运维服务提供商,他们所探求的核心目的是一致的,那就是将分散的IT资源进行统一的融合管理。不同的是IT运维服务提供商是解决问题的技术提供者,用户是解决问题的方案使用者。

对于统一的融合管理,需要融合哪些方面?通过什么样的手段进行统一管理?对于这些问题,H3C的iMC2.0数据中心管理解决方案提出了很好的参考意见。

想要做到统一融合管理,需要解决的问题可以分成四个方向:

一、融合的基础设施管理;

二、智能的自动化管理;

三、完善的安全管控策略;

四、开放的IT管理架构。

融合的基础设施管理包括:

1、 统一网络管理平台。通过统一的网络管理平台将海量的网络和服务器节点进行实时的监控,通过有效的阀值设定,实现准确的故障以及与故障报警以及准确定位。

2、 虚拟网络管理。将虚拟网络与物理拓扑图进行结合,动态显示虚拟网络、虚拟机的变化迁移,将原本比较抽象的虚拟机和虚拟网络进行实体化管理,帮助用户解决虚拟化的管理瓶颈。

3、 服务器应用管理。针对计算核心的实施监控,针对服务器本身硬件配置以及相关操作系统、虚拟化系统进行监控管理,确保业务计算核心稳定运行。

4、 业务流量分析。针对网络流量以及相关数据包进行分析,一方面保证相关业务的带宽稳定,同时衡量出不同业务对于信息化资源的需求,另一方面,对网络流量的分析也可以杜绝安全隐患。

智能的自动化管理应该具有的特性包括:

1、虚拟资源自动迁移。服务器虚拟化为保障VM系统的可靠性、灵活性,提供了VM迁移、以及高可用性HA)、热备容错FT)、动态资源池调度
DRS)等特性,这些特性都会影响VM的物理部署位置,而VM接入物理网络设备是需要一定的网络资源配置的,其接入位置的动态性就要求物理网络配置能提
供随需而动的管理能力,否则VM对网络的连通性、安全性、可靠性需求就无法得到保障。为了实现网络配置的动态迁移、随需而动,准确定位VM和物理交换机的
连接关系是关键能力。正在形成标准的802.1Qbg协议不仅保证了所有网络流量都必须在物理交换机上处理,而且通过EDCP/CDCP/VDP等协议解
决了VM和交换机连接关系的定位需求。另一方面物理交换机端口和VM的1:N连接关系,使针对每个VM的网络配置实现精细化控制是非常复杂的,H3C实现
的802.1Qbg方案通过在物理交换机上支持vPort概念,为解决该问题提供了更好的支持。iMC基于802.1Qbg实现了虚拟化环境中网络配置的
自动迁移能力。同时基于iMC对于网络和服务器、VM的融合拓扑分析能力,支持vSwitch环境下的网络配置自动迁移能力。首先根据用户应用对网络资源
的需求,定义网络资源类型。然后将此网络资源类型分配给不同的VM,则VM在迁移或启动时,就会在网络设备中自动分配相应的网络资源。

2、数据中心设备“零配置”。这里所说的“零配置”是相关设备与IT运维系统之间的配置关系。对于企业用户而言,内部的信息化设备的品牌繁多,相关
设备的更新换代也比较频繁。如果运维系统需要针对每一台设备进行配置备案的话,工作量浩大而繁琐。而iMC的“零配置”指的是IT运维系统对于相关设备的
自动识别,相关监控数据的自动采集和抓取,这样既节约了运维系统的上线时间,又降低了管理者的工作成本。
 
3、网络服务自动编排。在云时代的数据中心环境中,我们所面临的不再是一成不变的设备环境,基础设施可能随着业务需求的变换而不断增长、调整。为了屏蔽不
同厂商、不同型号设备的差异,使IT管理员聚焦在服务本身,必须要作到对资源及业务的快速开通,实现高度智能的自动化管理。iMC借助融合的资源管理能
力,将各种资源提供的能力抽象出来,建立统一的机制,实现基于业务的编排能力。
 
4、IT服务水平自动度量。根据ITIL信息技术基础架构库)规范要求,数据中心IT服务部门通过服务水平管理SLA)来保证其服务有效,建立服务健
康水平监督体系,来保证服务达到规定的健康水平等级,即使服务失败,也可以正确分析原因,帮助IT服务部门做出正确的应对决策。

完善的安全管控策略所需要的要素包括:

1、配置合规检查

数据中心规模庞大,设备及系统众多,管理人员经常面临的问题就是大量重复设备配置的规范性、安全性问题。伴随着各种审计体系在级别和频度上的不断增
加,传统的通过人工方式检查设备规范性的审计方法,不仅效率低下,还会存在遗漏,已经无法适应云时代数据中心的安全管控需求。都说安全问题“三分技术,七
分管理”,但是想要把那“七分管理”iMC配置合规检查内置常用的策略,如NSA路由安全建议、PCI、Syslog功能、设备安全高级建议等,以满足用
户的日常检查管理。用户可以自定义合规策略,对网络设备进行配置检查。合规策略包括一个或多个检查规则,一个检查规则分为配置文件、接口、链路、聚合链
路、配置片段、脚本等不同类型,包含支持的厂商、设备系列、检查内容来源、规则内容等信息。用户可通过创建检查任务来检查设备是否符合合规策略,检查任务
包含待检查的合规策略、设备的信息等。检查任务执行完毕后,可以通过报表查看设备违背合规的信息。对于违背合规的设备,用户可以创建违规修复任务进行修
复,及时解决在数据中心环境中出现的配置问题,提高安全等级及各种法案法规的遵从度。

2、设备操作审计

设备资源是数据中心的基础资源,对于设备管理的安全性也是信息安全的重要组成部分。与配置合规检查不同的是,iMC设备操作审计从验证管理员登陆设
备的身份、权限出发,根据企业设定的规则,合理分配访问设备的权限,即明确管理用户可访问的设备,可执行的命令,可完成的操作并记录设备管理员详细的操作
行为信息,以利于以后历史回溯和故障的判断和分析。iMC设备操作审计通过TACACS+协议实现,提供基于接入情境的控制策略,统一的监控设备管理员的
登录和执行命令行操作,支持主流厂商的设备,简化操作员为设备管理员细化权限的过程,为管理带来了便捷。

开放的IT管理架构的特点:

云计算最终的目标是达到系统的按需运营,运营系统能够根据用户请求执行服务的开通。任何一套管理系统,都不可能满足所有用户的需求,在云时代尤其如
此,这就要求用户在建设数据中心时具备开放的管理战略,IT管理系统具备开放的能力。iMC是一个开放架构的SOA平台,所有iMC相关产品都是在此统一
平台上开发的,并在此平台上封装网络服务并开放服务接口,第三方产品可以使用基于iMC
平台和开放的API接口实现对网络资源的调度。

总之,实现IT运维的自动化管理是指通过将IT运维中日常的、大量的重复性工作自动化,把过去的手工执行转为自动化操作。自动化是IT运维工作的升华,IT运维自动化不单纯是一个维护过程,更是一个管理的提升过程,是IT运维的最高层次,也是未来的发展趋势。

看了这么多内容,相信大家对于IT运维自动化以及iMC已经有一些相关的了解了,感谢大家参与我们的活动,赶快回到论坛领取精美礼品吧,也许幸运大抽奖就会降临到您的头上哦。

论坛活动地址:

发表评论

电子邮件地址不会被公开。 必填项已用*标注