机器学习在IT运维中的应用

依托互联网的高速发展,云计算和大数据浪潮正席卷各大行业的前沿应用,
BYOD在协同办公中盛行以及“棱镜门”引发的国产化需求攀升,这都让2013年的中国IT运维管理市场在稳步增长的同时,其产品的发展方向在创新应用的“倒逼”中发生了改变。

众所周知,2013年揭露的“棱镜门事件”给蓬勃发展的中国信息化进程敲响了警钟,国家强烈意识到数据信息安全的重要性,将自主可控提升到了国家战略的高度,开始大力提倡IT国产化的发展道路。

,依托互联网的高速发展,云计算和大数据浪潮正席卷各大行业的前沿应用,
BYOD在协同办公中盛行以及“棱镜门”引发的国产化需求攀升,这都让2013年的中国IT运维管理市场在稳步增长的同时,其产品的发展方向在创新应用的“倒逼”中发生了改变。

姓名:冯坤 学号:16050310070 物理与光电工程学院

说起IT运维,不同的人有不同的理解,有的人认为IT运维就是修电脑、看机房的;有些人认为IT运维是负责公司服务器管理、网络维护的;更专业些的认为IT运维是负责应用系统维护、保证应用系统安全可靠运行的。这些说法都有其正确的一面,也都不全面。不同的场景下IT运维涉及的内容不同,工作职责范围也不同。

运维市场“利好”不断 第三方平台市场份额提升

威尼斯娱乐 1

运维市场“利好”不断 第三方平台市场份额提升

【嵌牛导读】:现如今,人工智能和机器学习已经渗透进了每个领域,它从根本上改变和影响了这些领域的业务模式、技术架构以及方法论。同样在
IT 运维与 Devops 中也是如此。作为 IT
运维团队,我们真正关注的是机器学习如何提供实时事件的管理能力,从而帮助较大规模的企业提高服务质量。这其中的关键点就在于在用户发现问题之前提早探测异常,进而减少生产事故与中断带来的负面影响。

IT运维简单点说就是负责IT系统的运行维护工作,保障系统安全稳定运行,给用户提供有效的IT服务。IT系统范围很广,包括每个企业都用到的OA系统,我们邮件、考勤、差旅报销全靠它;还有企业内部的进销存、客户关系管理、物流管理、计费管理系统等等。有的系统是辅助我们日常工作,有的系统直接就是我们的生产系统,系统如果停止服务就只能关门下班了,这种场景下保障IT系统稳定运行的运维部门就显得尤为重要。

2013年国务院出台了《国务院关于促进信息消费扩大内需的若干意见》等一系列的利好政策,预期到2015年,信息消费规模将超过3.2万亿元,年均增长20%以上,带动相关行业新增产出超过1.2万亿元。另外,据IDC最新数据统计,中国2013年的IT开支为1790亿美元,超过了日本的1730亿美元,成为全球第二大IT市场。

要想加速打造安全自主可控的IT产业链,需要国家对信息系统产品实现底层技术掌控。近些年来,国家相关的法律法规陆续落地,中国政府对芯片、主机、网络设备、操作系统、数据库、中间件、服务器等多个领域的行业扶持进行了升级,并在政府的采购政策上做了大力调整,逐渐开始了“IT采购的国产化”。政府在IT国产化建设的决心可见一斑,这也与众多民间大型企业的“去IOE”观点不谋而合,上下一致。

2013年国务院出台了《国务院关于促进信息消费扩大内需的若干意见》等一系列的利好政策,预期到2015年,信息消费规模将超过3.2万亿元,年均增长20%以上,带动相关行业新增产出超过1.2万亿元。另外,据IDC最新数据统计,中国2013年的IT开支为1790亿美元,超过了日本的1730亿美元,成为全球第二大IT市场。

【嵌牛鼻子】:IT 机器学习

根据企业规模和用户分类来看,IT运维的工作职责、能力要求也有很大的区别。

随着IT运维在组织建设和发展、企业业务流程改进和转型,以及IT成本控制等方面的价值认可度不断提升,2013年IT运维市场总体成长空间大幅放量。在我国信息基础设施大手笔投入中,将具体部署在智慧城市、物联网、云计算、大数据、电子商务等方面,而这些信息消费增长点的背后,无疑都为IT运维产品打通了“供给线”。在未来几年内,IT运维管理市场年复合增长率必将继续保持“两位数”。

IT国产化,它不是一句口号,而是一个完整的系统工程。除了IT基础设施建设的国产化,对网络、软硬件环境具有“超级控制权”的IT运维管理系统也需要尽可能地实现本土化、国产化来避免数据泄露问题。

随着IT运维在组织建设和发展、企业业务流程改进和转型,以及IT成本控制等方面的价值认可度不断提升,2013年IT运维市场总体成长空间大幅放量。在我国信息基础设施大手笔投入中,将具体部署在智慧城市、物联网、云计算、大数据、电子商务等方面,而这些信息消费增长点的背后,无疑都为IT运维产品打通了“供给线”。在未来几年内,IT运维管理市场年复合增长率必将继续保持“两位数”。

威尼斯娱乐 ,【嵌牛提问】:在 IT 运维中,机器学习是什么?

公司规模.png

在市场占有率方面,Gartner在2013年5月公布的统计数据显示,IBM、CA、BMC和HP市场份额都有所减少,第三方产品市场份额不断攀升。另外,从国内用户端和系统集成商在媒体访谈中涉及的相关数据上看,以北塔软件为代表的第三方平台产品市场份额约占50%,以华为为代表的网络厂商专业网络工具占据市场份额约20%,第三方系统集成商开发的占据市场份额约10%。此外,还有大型互联网公司自主开发网络运维系统,约占据市场份额5%,其余则由开源工具或其他工具收获。

威尼斯娱乐 2

在市场占有率方面,Gartner在2013年5月公布的统计数据显示,IBM、CA、BMC和HP市场份额都有所减少,第三方产品市场份额不断攀升。另外,从国内用户端和系统集成商在媒体访谈中涉及的相关数据上看,以北塔软件为代表的第三方平台产品市场份额约占50%,以华为为代表的网络厂商专业网络工具占据市场份额约20%,第三方系统集成商开发的占据市场份额约10%。此外,还有大型互联网公司自主开发网络运维系统,约占据市场份额5%,其余则由开源工具或其他工具收获。

【嵌牛正文】:

运维技能的对照说明:

运维仍然拖累“创新机会”CIO更应抬头看路

那真正的IT国产化运维管理应该具备什么条件?首先,这个IT运维管理软件平台支持对国产化IT基础设备实现全面的自动识别运维监控、管理;其次,这个平台本身就必须是国产化产品,它的每一个模块、组件、依赖的第三方组件都必须满足自主可控的要求,同时,还要求它能够在纯国产化的环境中健康地运行,而不是需要依赖国外的中间件、数据库、JDK等才能工作。

运维仍然拖累“创新机会”CIO更应抬头看路

在 wiki 中机器学习的定义如下:

运维技能.png

虽然2013年的IT运维市场红红火火,但很多CIO仍然无法逃离IT运维管理的枷锁。研究机构Gartner最新调查中发现,超过一半的CIO的工作只专注于现有运维,而不愿拥抱新科技带来的机会。Gartner对全球2千多位CIO进行问卷调查,结果发现68%的CIO拒绝改变现有工作内容,只专注IT运维,而不愿寻找新机会来提升IT在企业中的价值。Gartner研究总监Owen
Chen把这个现象称作“沉默IT的危机(Quiet IT
Crisis)”,他表示:当CEO以业务量成长为企业发展目标时,IT的表现不变,但业务需求量却上升,这时维持稳定的IT虽然没有带来亏损,但却也变得再也满足不了企业对IT的需求。

勤智数码作为本土化的智能服务解决方案提供商,用实力说话,率先实现了纯国产化的运维产品架构,OneCenter一体化智能运维管理平台自身及所使用的所有系统和组件都达到了国产化自主可控的要求。经过和国内优秀的各大国产化厂商合作,OneCenter可部署在龙芯服务器中,支持使用麒麟等国产操作系统、东方通中间件、神通数据库等国产IT设备,平台已达到能在纯国产化的环境上部署运行的水平,监控管理的国产化IT设备覆盖范围全面,真正实现了纯国产化的IT运维管理,而其他同类型软件则仅仅只能实现部分国产IT设备的监控功能,其系统无法运行在纯国产化环境中……

虽然2013年的IT运维市场红红火火,但很多CIO仍然无法逃离IT运维管理的枷锁。研究机构Gartner最新调查中发现,超过一半的CIO的工作只专注于现有运维,而不愿拥抱新科技带来的机会。Gartner对全球2千多位CIO进行问卷调查,结果发现68%的CIO拒绝改变现有工作内容,只专注IT运维,而不愿寻找新机会来提升IT在企业中的价值。Gartner研究总监Owen
Chen把这个现象称作“沉默IT的危机(Quiet IT
Crisis)”,他表示:当CEO以业务量成长为企业发展目标时,IT的表现不变,但业务需求量却上升,这时维持稳定的IT虽然没有带来亏损,但却也变得再也满足不了企业对IT的需求。

A computer program is said to learn from experience E with respect to
some class of tasks T and performance measure P, if its performance at
tasks in T, as measured by P, improves with experience E.

1、传统企业

由“成本中心”转化为“价值中心”,这才是CEO希望CIO对IT持续投资后的真正愿望。但很多企业中由于无法对基础设施提供坚毅的IT运维保障,从而无法引入BSM(Business
Service
Management,即业务服务管理)等更能实现和展现价值的方法论,这样的结果就是运维与核心业务之间出现了很大的排斥性。因此,我们建议这些被运维缠身的CIO们,不但能够“低着头干活”,更应该“抬起头看路”.IT部门应该首先将自己所管理的IT资源做到透明化管理,对这些资源的服务水平做到综合评估和承诺。接下来,就是要帮助业务部门根据其需求进行资源的合理分配,做到按需分配。在这个基础上才可以顺应业务部门不断的变更与创新需求,重塑自己的价值。

我国IT产业起步较晚,IT技术基础薄弱,国外公司在核心技术和高端领域长期以来处于垄断地位。国家要想用自主可控的国产软硬件和服务来替代进口仍旧需要一个过程,这不可能一蹴而就。同样,跟随IT国产化不断发展起来的IT国产化运维管理的发展过程也不是一帆风顺,难免有许多困难需要克服。勤智数码在实现OneCenter能在纯国产化环境中运行这一步骤时,研发团队对产品专门针对国产化要求进行重新架构,还通过无数次地与各大国产化厂商沟通、磨合和对产品的来回调试、测验,不断“发现问题、解决问题”,和厂商一起共同解决了当前国产IT基础软件产品的性能不稳定、通用性不强以及故障率比较高等问题(比如,克服了产品从SunJDK切换为国产化定制后的OpenJDK所带来的系统频繁崩溃、启动缓慢等影响);另外,产品架构也专门为适应新的设计进行了调整。只要功夫深,铁杵也能磨成绣花针。最后,勤智数码通过IT国产化运维管理的实施,实现了产品和国产软件的完美适配,让整个IT国产化运维管理过程不再出现安全漏洞,避免了使用国外软件后期出现的系统漏洞风险,企业信息的安全从此得到了强有力的保障。

也就是说,随着任务的不断执行,经验的积累会带来计算机性能的提升。

这个传统企业主要相对于互联网企业而言,服务不是通过在线网上来提供的,更多的是提供线下服务,譬如,传统的超市、电力、石油、制造型企业。这些企业通常只有内部用户,包括内部的办公自动化(OA)、客户关系管理系统(CRM)、企业资源计划系统(ERP)等等。这类企业大部分的IT系统都是购买第三方的。

国内用户为“安全担忧” 国产化风暴起于“棱镜门”

在国家和企业对信息安全高度重视下,IT国产化是一个不可逆的过程。近年来,军工、政府、金融、电力等行业用户对国产化IT设备的采购力度不断加大。在他们的公开招标信息中,我们也不难发现,对第三方IT运维平台中的国产化“指标”或“规定”也开始增多,这说明IT国产化运维管理的市场在不断扩大。而随着移动互联网、云计算、大数据等新技术不断推动着IT国产化的发展进程,IT国产化运维管理市场发展也将迎来最美的春天!

而在 IT
运维的语境中,这段话又可表述为:随着运维事件(运维数据)的不断产生,处理结果的积累会带来企业服务质量的提升。

** 小型企业
**(几十人):通常购买现成的甚至于用一些免费的系统,通常是对生产提供辅助性的工具,譬如OA系统,对系统的功能和可靠性要求不高,这种场景下只需要一两个熟悉计算机技术的人兼职即可,不需要专业的运维人员,这就是有些人眼里修电脑、装系统的。这种情况下系统挂了半天也无大碍,对正常生产没有特别的影响,最多有人抱怨一下。

转身让我们看看国内的CIO,他们不但遇到了普遍存在的运维难题,更在2013年拥有了更多的“烦恼”。这就是“棱镜门”事件曝光之后的安全问题,作为网络枢纽的监控与调动核心,IT运维管理系统的“超级权利”很有可能造成数据泄露等致命危机。棱镜门的反作用力,给了国产操作系统和数据库创造了一个发展的良机,同样,在电力、政府、金融等行业用户的公开招标信息中,我们看到,对第三方IT运维平台中的国产化“指标”或“规定”开始增多。

我们期望在这个过程中可以建立一种行为模型,一方面它可以依据经验数据识别事件,将事件归类、归因。另一方面它又可以动态改变事件发生的条件,反过来影响事件发生的概率。例如监督式机器学习可以记录用户给定的告警及告警集群的活动,并相应地动态调整告警规则。这不同于传统管理工具的方式,你需要在一开始就对它们进行一定的配置,建立静态的规则,并期望它们留意你预先就知道会发生的事件。而机器学习则可以存在反馈机制,它能利用数据不断创建和更新行为模型,而不是使用静态的行为去寻找特定的结果。

运维技能只需要L1级别

为顺应这些用户对国产化软硬件产品的紧迫需求,北塔软件等一批自主创新的民族企业,也加大了对国产组件的研发投入,例如,支持麒麟Linux操作系统、达梦数据库管理、CICS和Tongweb中间件等国产化产品的运维监管,这为电力、政府、金融等行业用户中的国产化软件提供了统一运维的保障。

并且,机器学习还可以在不指明具体方向的情况下自行探索,它可以发现事件隐含的特性,并依据此将相关的事件聚类,总结出特征向量。这种无监督的机器学习方式可以发现事件与事件、事件与运维结果之间的隐性关联。例如,它可以用于分析事件流和日志信息,从而找出异常的消息簇。之后,这些异常可以与某项运维结果或者事件相联系,从而分析出潜在的原因与症结。

**
中等规模**(几百人以上):这部分企业一般会考虑定制化自己的IT系统,并且会架设自己的服务器或者将服务部署在云环境下,这种情况下通常每年会有IT方面的预算,并且会购买IT厂商的运维服务,但是为了沟通方便和从减少运维成本角度考虑(有的上门服务很贵还不及时),会设置专门的IT运维人员,通常会有几个人的IT小组或者部门。这种情况下一般需要运维人员是个全能选手(技术广度有余、深度不足),包括会装机、会网络管理、会应用部署、会数据库维护
,小毛病能够自己解决。通常是直接影响生产的系统,如果宕机影响就比较大,会影响到正常的商业活动、影响收入,譬如超市的POS机系统宕机,收不了钱,卖保险的系统宕机无法正常给用户办理保险业务。因为事关正常的生产活动,对运维人员的技能和服务意识有较强的要求,对运维流程也有较高要求,不能随意动生产环境。

创新势在必行 运维从工具“进化”为平台

在运维中应用机器学习的前提是具有运维数据、应用场景、特征工程、预测模型。

运维技能需要达到L2级别及以上

在之前的一份Gartner调查数据中显示,在IT运维成本中,来自技术本身或IT基础产品的成本其实只占了20%左右,而流程维护成本、故障修复成本、运维人员薪资之和却占到了80%以上。许多企业因为运维成本过大,或是对新业务缺少齐头并进的护航平台,这些都让CIO只能放缓新业务平台设施的IT项目,无奈的将资金和精力放在现有IT系统的维护和投资回报率的数字游戏中。

运维数据

大型企业(几千人以上):大型企业财大气粗,为了配合企业的形象,会成立相对独立的IT中心,提供高效的IT服务。这种场景下大部分是支撑分公司、门店业务系统的正常运行,非关键业务企业通常会购买定制第三方IT产品,核实业务有的也会自己研发。有专门的运维队伍,分工具体,其中应用维护、主机维护、网络维护、系统优化都有专门分工,对运维的规范有较深入了解,运维流程相对健全。此时IT中心又可以称为业务支撑中心,主要支撑公司的主营业务发展,对公司的市场经营活动起到强有力的支撑作用。这类企业中对OA等办公系统的支撑不是最主要的,并且必要的情况下会引入外包的运维服务。

以“按需配置”的虚拟化为例,这不仅是云计算和大数据的基础,更是网络基础环境、实施服务等级,实现更低的成本和更高盈利的切入点。然而,要从云或大数据的金矿中淘到金子,并没那么容易,传统架构下的IT运维架构往往落后于虚拟化数据中心的建设进程。此时,如果只是将IT运维放在工具层面,就无法与业务深度融合,并创造出全新的管理模型。所以,第三方运维软件必然要进化,承担起对接和承载新业务的平台。

在运维过程中,会产生海量的运维数据,这其中有些可用于描述应用或者系统的运行状态、有些可用于标签、有些可用于进行经验反馈。这些巨量的、多维度的数据是机器学习建立行为模型的基础。运维数据从来源和用途上可分为机器数据、传输数据、代理数据和人为数据。

运维技能需要到达L3、L4级别

而这一年中比较抢眼的产品集中在11月,如:北塔软件升级的BTIM
3.6,以及惠普推出的HP CloudView
“一体机”.这些平台工具与专业工具关心的方向不一样,专业工具是解决用户的某一个技术问题,而平台工具是观察用户整体IT运维环境的状况。其中,北塔BTIM
3.6在虚拟化监控方面的运维深度,以及可支持44种服务类类型、3000多个指标的运维广度,都在非常积极地引领着“平台化”的实践方向。

机器数据

2、互联网企业

回顾2013年,“创新驱动”在各个行业都在践行。将其用于IT运维管理领域中,我们在2013年看到了很多因为应用需求“倒逼”的产品变革,而“倒逼”也是一份动力,让我即将驶入更精彩的2014。

由应用或者 IT
系统自身产生,包括日志信息、监控数据等。这类数据的量最大、维度最广,它可以全面的描述应用、系统或集群的运行状况。

互联网企业也有内部用户,但一般不是重点,重点是外部用户,可能数百人的公司就支撑着几百万用户使用的网站系统。在这种情况下公司的内部用户通常信息化能力都比较高,内部OA等投入不会很大,公司的大部分人力都投入到生成系统(在线站点)的开发和维护中去。中小型的互联网企业开发、维护区分不是很明显,大家一起投入保障系统安全稳定运行。大型互联网企业研发、运维会进行分拆,运维重点是保障系统的快速部署、信息安全、系统优化、日常巡检、例行作业维护等。另外这类企业中的运维人员更能接触和拥抱新技术,在运维自动化等方面投入会更多。

BYOD在协同办公中盛行以及棱镜门引发的国产化需求攀升,这都…

传输数据

这层面运维技能需要到达L3、L4级别

在不同系统之间通过网络传输的数据,可能包含系统或者业务数据。

代理数据

由一些工具主动产生的数据,比如代码分析、系统测试数据等。这类数据一般是通过特定的方式产生,本身就带有一定的特征和标签性。

人为数据

人产生的数据,比如系统操作、提的工单、QQ&
微信中的信息等。这类数据可以作为经验判断和标签的依据。

运维场景

场景也就是所谓的任务。机器学习的核心就是用一个预测模型(线性回归、逻辑回归、SVD、决策树等)和一堆原始数据(运维数据)来得到一些预测结果。而这个预测结果就是任务的预测值。以下我列了几个在运维领域适用于机器学习的场景。

消除事件噪音

在 IT
运维中产生的成千上万的事件充满了噪音和冗余,单纯靠人工方式根本无法处理。机器学习可以自动化这个流程,类似于电子邮箱中的垃圾邮件过滤机制。利用机器学习,可以大幅度降低事件的噪音,只甄选真实的事件向用户告警。

威尼斯娱乐 3

事件归因归类

机器学习可以按照预先定义的模型,提取事件的特征,归类到不同的事件场景
(situation) 中,便于运维人员理解与处理。

威尼斯娱乐 4

事件对齐

机器学习将事件归类到事件场景后,可以分析事件之间的关联、按照因果逻辑生成事件告警。这样运维人员看到的事件告警是经过处理的、具有逻辑关系和意义的结果信息。

复发事件的探测与处理

对于以往发生的事件与告警,机器学习可以自动学习事件场景与处理策略。当类似事件再次发生时,机器学习可以将事件归类,并自动生成处理步骤,提供给运维人员。

机器分类

机器学习可以按照预先定义的模型,根据机器数据自动分类机器。这样运维人员可以针对不同的分类,做相应的分析与优化。

威尼斯娱乐 5

特征工程

在机器学习中,一个预测模型的好坏往往取决于特征工程。坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见特征工程在实际的机器学习中的重要性。从某些层面上来说,所使用的特征越好,得到的效果就越好。在有些时候,我们甚至可以使用一些不是最优的模型来训练数据,如果特征选择得好的话,依然会得到不错的结果。

而在运维中,如何选择特征是个领域和工程问题。

我们一般可以遵循以下流程来构建特征:

任务的确定:根据具体业务确定要解决的问题

数据的选择:收集数据,整合数据

数据的预处理:数据格式化、清洗、采样

特征的构造:利用领域知识和工程化方法构造和选择特征

计算模型:通过模型计算得到模型在该特征上所提升的准确率

上线测试:通过在线测试的效果来判断特征是否有效

预测模型

在有了运维数据和应用场景(确定业务问题)后,如何建立一个预测模型能尽量的拟合数据,从而使得目标函数最优化则成为了解决运维问题的关键。

一般情况下预测模型可以分成两个子集:回归和分类。

回归

它研究的是因变量和自变量之间的关系,以便做出关于连续变量的预测,如天气预报的最高温度的预测。在技术运维中,我们可以通过建立回归模型来预测下一个点的监控值,并通过设置动态阈值的方法来对异常数据进行检测。

分类

与回归模型不同,分类的任务是分配离散的类标签给特定的观察对象作为预测的结果。回到上面的例子:在天气预报中的分类问题可能是对晴天、雨天或者雪天的预测。

分类任务可被分成两个主要的子类别:监督学习和无监督学习。

在监督学习中,用于构建分类模型的数据的类标签是已知的。例如,一个垃圾邮件过滤的数据集,它里面将包含垃圾邮件以及非垃圾邮件。在有监督的学习问题中,我们已经知道了训练集中的邮件要么是垃圾邮件,要么是非垃圾邮件。我们将会使用这些信息来训练我们的模型,以对新的邮件进行分类。在运维的场景中,我们可以通过建立有监督的分类模型,来消除告警噪音。

威尼斯娱乐 6

而与此相反,无监督学习任务处理未标记的实例,并且这些类必须从非结构化数据集中推断出来。通常情况下,无监督学习采用聚类技术,使用基于一定的相似性(或距离)的度量方式来将无标记的样本进行分组。例如在技术运维中,我们可以对机器进行聚类,便于运维人员找出它们彼此之间的关联,做相应的分析与优化。

威尼斯娱乐 7

总 结

传统的运维方式基本都是依赖人工和静态规则,它们无法适应于动态复杂变化的场景。而人工智能可以让运维具备机器学习和算法的能力,从而在动态变化场景的复杂条件下,能够做出高效准确的决策判断。我们需要具有从“基于专家经验”到“基于机器学习”的观念转变,让
Ops AI 化(这个 AI 指的是 Algorithmic
IT),从而推动运维朝着高效的方向发展。

随着大数据技术的发展以及数据产品的应用和推广,尤其是在工业和互联网领域,企业使用机器学习来提升收入或是降低成本的方式愈加有效。这其中,预防欺诈、定位电子广告的目标客户、内容推荐、建造更好的汽车、瞄准更好的潜在市场、优化媒体改善医疗保障服务等都证明大数据机器学习的多功能性和广泛的适用性。

发表评论

电子邮件地址不会被公开。 必填项已用*标注