云时期下多少核心管理的着力点

数据中心的运维管理一直是企业IT管理人员关注的焦点,而数据中心的管理工作纷繁复杂,既有计算节点方面的系统维护,又有网络节点之间的网络管理,各种业务系统的维护也是IT管理者需要考虑的范畴。

我们知道,作为ICT完整产业链条中的关键一环,企业的存储系统发展的轨迹与脉络总是与ICT行业的变化趋势相差无几,纵观存储产品从技术到形态的整个演进过程,都伴随着用户端需求持续不断的发展和升级。

在最新发布的超级计算机Top500名中,linux的使用比例已经达到了94.2%,前十名的系统全部采用了linux操作系统。2013年,linux将继续借助云计算的东风,在数据中心操作系统的市场上有一番更大的作为。

随着全球互联网产业的发展,流媒体、网络游戏和电子商务等互联网业务规模不断扩大,基础资源需求迅速扩张,客户对数据中心要求也越来越高,且数据中心的数量每年保持20%以上的增长。据全球权威电信产业咨询公司OVUM统计,2014年底全球数据中心数量6078个,到2015年上半年上升到6519个。互联网业务的快速发展,数据中心的急速增加,怎样的网络才能更好的支撑数据中心的发展,为客户提供更宽、更快、更安全、更节能的网络?

伴随“云计算”概念的提出以及推广,数据中心管理问题再一次被众多的媒体和厂商推到了风口浪尖,新时代下的数据中心管控又一次成为了人们密切关注的话题。数据中心管理对于企业IT管理者而言已经不是新鲜事物,这回又一次被人们所关注甚至热炒要归结于数据中心自身在急速演变和发展,随之而来的对数据中心的管控要求和难度也不断地增加。

过去一段时间里,业务扩张不确定性带来的存储系统规划困难、传统scale-up架构扩展困难、烟囱式建设导致物理资源利用不均且浪费严重、多厂商并存的存储系统管理维护复杂等问题,曾一度令许多企业用户一筹莫展,对企业持续不断的业务升级及规模扩充形成阻碍。

SDN,在经历了犹豫彷徨、百家争鸣之后,目前已成为企业CTO的坚定选择。

  近几年,伴随着云计算的快速发展,以及linux平台的不断发展和生态系统的不断完善,越来越多的企业、云服务提供商都将linux作为其数据中心的首选操作系统,并且越来越多的企业把关键应用放到linux平台上。

网络云化是全球互联网发展的趋势,云化的数据中心才能更好的共享网络资源,均衡流量及降低容灾备份成本等。数据中心成云,对数据中心的承载网,提出新的挑战。

数据中心的发展

随着“智能+”发展理念的不断普及,云时代的如期而至,对于企业来说,也为解决数据存储困扰找到提供了新的时代机遇。5月31日,中建材信息技术股份有限公司(以下简称“中建材信息”)携手华为,在雪域高原上的城市拉萨举办智能计算产品赋能活动,共同解析了当前存储产品线的发展现状及需求痛点,探讨了升级产品技术、优化区域政策的前景和方向,为面向未来的产品战略布局指明方向。

SDN时代的网络展现出两面性:一方面让客户使用更加简单,另一方面却让运维更加复杂。而当前,整个行业的目光多聚焦在前者而忽略了后者。

  在最新发布的超级计算机Top500名中,linux的使用比例已经达到了94.2%,前十名的系统全部采用了linux操作系统。2013年,linux将继续借助云计算的东风,在数据中心操作系统的市场上有一番更大的作为。企业和云服务提供商将继续把linux作为云计算的首选操作系统,其主要原因包括如下几个方面:

超100G大带宽

企业级用户的数据中心在向着什么方向发展?这个问题已经不难回答。随着用户对于信息化需求的不断加大,企业级用户的数据中心正在向着大融合、大集中的方向迈进。正是因为如此,虚拟化、刀片服务器等技术和产品不断地被用户所接受,而云计算概念的提出和发展,更是加速了这一趋势的演变。不少大型企业用户,已经在公司本部建立了高集约的大型数据中心,通过B/S的应用系统来整合各个分公司的数据中心,以此解决信息孤岛等方面的问题。在这样的背景下,数据中心的管理迎来了新的挑战。

图片 1

随着SDN的部署如火如荼,一丝忧患也隐隐浮现。2015年12月,管理行业研究机构EMA(Enterprise
Management
Associates)针对100多家企业的调查结果显示:70%左右的客户对于现有管理运维体系是否适用于SDN场景表示担忧。Gartner于
2015年7月发布的通信网络技术成熟度曲线(The Hype
Cycle)也显示,SDN相关的运维技术处于泡沫化的底谷期(Trough of
Disillusionment),将在2~5年内进行大规模商用部署。

  业务发展需要构建灵活的系统

超大带宽,有容乃大。互联网业务的蓬勃发展,各种传统的业务、服务在互联网得到发展,并衍生出各种热门的互联网业务。互联网用户数呈现爆发式增长,据统计,全球互联网用户每年以20%速率增长。业务的扩充,用户数的增加,需要提供更多的数据中心和更宽的承载管道,以满足业务的发展。数据中心互联步入超100G时代。

数据中心管控的新挑战

未来企业的分布式云存储趋势是怎样的?会上,为解答生态伙伴共同的疑惑,中建材信息邀请华为技术专家,基于其FusionStorage全分布式云存储及解决方案给出了方案。华为将过去无序的烟囱式存储升级为集约的资源池,建立按需部署,弹性扩展,线性增长的全分布式架构,同时构建2个600PB+业界最大企业级分布式存储平台按需供给存储类型、容量与性能服务,实现系统高可用数据冗余保护、数据中心级可靠性保障及极速数据恢复,充分保障了后续资源管理运维的简单易用。

华为早在全面拥抱SDN初期,就把SDN运维作为关键课题进行研究和实践,下面分别从WHY、WHAT、HOW这3个纬度展示华为对SDN运维的思考。

  业务发展永远是企业的最重要的目标。如今,越来越多的用户意识到——灵活的基础架构对于业务发展的重要性,比如,海量的数据量和数据处理的复杂性都需要可灵活扩展的、高性能的IT基础架构。而linux则让云计算的这种灵活性、规模经济效应和可靠性成为可能。以红帽企业linux为例,基于红帽企业linux构建的开放式混合云基础架构,可以实现应用软件在内部环境和公有云环境之间轻松的迁移和转换,同时保证研发和管理平台的连续性。

适应数据中心的安装条件

图片 2

图片 3

图片 4

  开源云平台为linux再添助力

因地制宜,推陈出新。绝大部分的数据中心没有专门的传输机房,传输设备需要部署在数据中心机房,以节约成本。一般的传输设备在供电、散热、机柜等特性上,不太适合安装在数据中心机房,需要对机房进行改造,增加安装、维护成本。所以急需要新的传输设备,满足和数据设备供机房的要求。

早期IT管理人员对数据中心的管理强调两个方面,第一,对数据中心各个环节进行维护,确保数据中心的稳定性;第二,当数据中心内出现问题时,及时定位并且解决问题,缩短故障时间。对于很多中小企业来说,这样的运维工作已可以满足他们的日常需求。

随后,应中建材信息及广大生态伙伴需求,华为技术专家也进一步带来自身关于OceanStor
Dorado全闪存存储系统的详细解决方案。获悉,OceanStor
Dorado全闪存依托多协议接口芯片、CPU智能分区、智能算法等七项核心科技,打造免网关双活方案,实现端到端的数据加速,并通过融合数据管理,构建云级可靠的灾备融合方案,以灵活应对企业多元可靠性需求。

WHY:SDN运维的新变化

  云管理平台是云计算基础架构中一个非常核心的部分,而以OpenStack、Eucalyptus、CloudStack等为代表的开源云管理平台在2012年可谓是备受关注,这些开源云管理平台与linux平台的完美结合,将为linux在2013年的发展再添助力。而事实上,从2012年开始甚至更早,各大linux提供商就已意识到这一点,并纷纷加入到开源云管理平台的战争。八月份,linux老大红帽宣布基于开源OpenStack架构来构建和管理私有云、公有云和混合基础架构即服务(IaaS)云的红帽OpenStack软件预览版将很快与用户见面。这意味着,OpenStack未来将能够更好地用于企业生产环境,并被更多的企业和云服务提供商所接受。

极致的用户体验要求更低时延

当数据中心发展到一定的规模,人们在以往数据中心管控要求的基础上,强调了流程化运维的模式,以便数据中心的运维工作能够更加快捷高效的运作起来,并且通过这样的流程化运维来提高用户的服务满意度。这对于很多大型企业来说,也是不错的运维模式。

技术是时代的产物,对于ICT行业而言也是如此,每一次时代变局,都将毫无疑问地引发新技术应运而生。就存储系统而言,业务诉求的新变化催生出资源供给模式的新转型,基于全面的产品和技术创新能力,云及AI技术不断加速与大数据的融合碰撞,在信息传输链条中释放出日益重要的关键价值。

相对于传统网络,SDN时代的网络有如下的特征:

  低成本——企业永恒的追求

极致追求,极致体验。金融客户需要低延时,以提高的业务交易量及容灾、备份;网游客户需要低延时,以提升清晰、流畅的快感;物联网及车联网需要提供更低时延,以提升客户的体验。低时延的设备和解决方案,可以为数据中心带来更大的竞争力。

随着云计算时代的到来,数据中心的发展上升到全新的局面,因此运维工作的整体目标也发生了质的变化,这给IT管理融入了新的元素。

为此,华为立足于构建、面向云数据中心的存储融合资源池,实现对存储基础架构的差异化整合,让数据在不同业务间按需流动和共享。

动态网络:动态是指根据应用需求按需创建和删除逻辑网络。比如某企业用户反馈,在运维中需要投入50%的工作在防火墙的规则上,主要原因是随着应用的变迁,防火墙规则没有随之变迁,造成网络沉淀和碎片。

  随着市场上的云服务供应商越来越多,在越来越激烈的市场竞争中,如何实现成本优势成为每个供应商必须要考虑的问题。正如某位云服务提供商在采访时所说,“如果能够降低自身提供的云服务的成本,无疑是一个相当大的优势”,linux+x86的组合于是当仁不让地成为众多云服务提供商的首选。这一点对于云服务提供商来说尤为重要。

简单便捷的维护接口

以往的数据中心运维工作的核心是“解决当前问题”,就是如何使问题不出现,出现了问题如何及时定位排除,当问题出现的时候,应该走什么样的流程……

结语

实时响应:传统网络的设计主要是面向人的界面,基于分钟级别慢速的原则,比如使用了几十年的SNMP机制。这种慢速机制,在SDN的快节奏中成为“吐槽”点。某企业客户抱怨其轻载的网络存在瞬态的突发丢包,怀疑存在毫秒级别的微突发流量,但是在分钟级别的
SNMP机制下无法观察到,更无法优化。

  无论是在传统业务领域,还是在云计算、大数据等新兴应用领域,无论是对于企业,还是对于云服务供应商,linux似乎已经成为云时代的一个必不可挡的趋势!

开放接口,智能运维。互联网一个特点就是“快速、灵活”,问题的快速响应,业务的快速发放,链路的灵活规划,设备的灵活部署等,做到这些需要一个开放、智能的平台,所以数据中心需要即插即用、开放式、智能化、易部署的设备。

而当数据中心已经发展到了云计算规模的时候,运维工作的管理对象和工作重心发生了调整。大量的虚拟化设备出现,使得管理工作的工作量和复杂度都大幅提升,这也使得虚拟化和自动化成为数据中心管理员们关注的焦点。

中建材信息也将与时俱进,因势利导,充分发挥ICT资源整合服务提供商的作用,通过与华为深化创新,与生态伙伴加速协同,依托全堆栈、全场景数字化方案,融合人工智能技术,通过“数据按需服务”能力实现企业的数字化转型。

大规模:大规模有两个含义,其一是管理的设备数量。从物理网元到逻辑网元vSwitch/vRouter,其数量增加了50倍;其二是处理的故障数量。据LinkedIn披露,从2010年到2015年,需要处理的故障增加了18倍,但管理人员仅增加了几个。

针对新的挑战,华为创新性提出了面向云数据中心互联的光传输解决方案,具备超大带宽,高集成,低功耗,简易、开放等特点。其中新开发的OptiCloud
OSN902系列光传输设备具有:单波200G,支持Flex
Grid,单纤容量大于20T;盒式设计,前进风、后出风,1+1交直流供电,适配各种数据中心安装条件;高度集成,2U高,6个业务槽位,单机2.4T容量;板卡、模块即插即用,易安装,易运维;开放式的管理接口;可满足端到端管理和业务快速发放。

面向对象调整:资源管控成为了运维的核心

要应对上述SDN网络的3大问题,传统的“人工运维”方式贤德捉襟见肘、难以为继。

云时代数据中心最明显的特点就是虚拟化技术的大量应用,这使得运维管理的对象也在变化。以前的设备都是真实的,位置也是相对固定,管理起来相对直观。而虚拟化技术的结果是将这些资源都“池化”,使得一切管理对象变成虚拟的、可灵活迁移的逻辑存在。资源在数据中心中的物理位置的可视性变得困难。

WHAT:SDN运维内涵

另一方面,网络和服务器的边界也变得更加模糊,这带来了网络及计算资源的协同调度问题。在创建虚拟机或虚拟机迁移时,VM主机的正常运行,不仅取决于在服务器上的资源合理调度,同时也取决于网络连接的合理调度。打通网络、计算之间的隔阂,实现资源的融合管理和智能调度,将是实现数据中心基于业务调度,并最终实现自动化的关键。

为了满足SDN下“动态性、实时性、大规模”的挑战,华为提出需要对整个运维架构进行变革,才能让SDN“管用、好用”。新的SDN运维架构需要围绕下面几个方面打造:

同时,服务器虚拟化应用中,VM的迁移不可避免地造成了其接入位置的动态性。这就要求物理网络配置能提供随需而动的管理能力,从而才能保证VM对网络的连通性、安全性、可靠性需求。因此,要更好地管控资源,准确定位VM和物理交换机连接关系,解决资源迁移问题,是数据中心管理者同样必须解决的关键问题。

可视化:看得见,看得清

总结起来说,在云时代的数据中心里,IT管理者必须能够时刻了解自身的IT资源情况,随时能够了解虚拟机和物理服务器之间的对应关系,同时清楚地建立起物理服务器、虚拟机、物理网络、虚拟网络之间的关系,并且把这些元素同企业的应用系统之间的关系建立起来。

俗话说“You Can’t Manage What You Can’t See”。“看得见”有两个方面的含义:

以业务为核心的管理理念:自动化及端到端业务交付

观察对象可视:可监控物理和逻辑对象,包括网元级别的节点和接口等,也包括网络级别的链路、逻辑路径和应用质量等。

随着需要管理的元素的增多,云计算数据中心运维需要顾及的方向越来越多元化。运维人员在管理日常的网络、物理服务器等设备外,对于虚拟机、虚拟网络、各个业务应用流程等方面成为了他们新的工作重点。在这样的情况下,如何打通网络、计算之间的隔阂,实现资源的融合管理和智能调度,将是实现数据中心基于业务调度,并最终实现自动化的关键。

观察的实时性:支持毫秒级别现象的感知(比如流量微突发)、低频率(<10-4)的丢包,以及大象流和老鼠流的识别等。

2012年2月24日,H3C以“融智开放
因云而变”为主题,发布了iMC数据中心管理2.0解决方案简称iMC
DCM2.0),其中重点强调的功能就是对于整体IT资源的融合掌握和智能控制。

“看得清”意味着针对观察的准确性,需要采集和分析海量的数据。包括:

通过新发布的iMC
DCM2.0解决方案,运维人员可以在同一界面中不仅可以实现传统的IT运维系统中对于数据中心物理层面的全管全控,同时还可以实现虚拟机、虚拟网络的开通和运维。此外,iMC
DCM2.0解决方案也提供了非常便利的虚拟机与物理机之间的呼应关系,即便虚拟机发生了迁移,运维人员也可以非常方便的了解到相关的虚拟机迁移到了什么地方,不同的物理服务器上究竟在运行着哪些虚拟机,各个虚拟机分别占用了多少网络资源等等,通过与不同虚拟化产品的API接口相结合,iMC
DCM2.0解决方案可以实时生成虚拟机的物理拓扑,将传统的物理拓扑和虚拟机有机的连为一体。通过这样的手段,即便是面对云计算数据中心,运维人员也可以非常清楚地了解到整体数据中心的运行状况,解决了对于云计算数据中心的运维瓶颈。

精确计费:采集的比例需要从8K:1到2K:1,甚至1:1全量采集。

通过融合、智能的管理,iMC
DCM2.0解决方案能解决数据中心管理者们最为关注的IT资源掌控的问题。同时,它还具备很好的安全性与开放性,不仅拥有完善的安全管控措施,支持配置合规检查、设备操作审计等安全管控策略,让用户的系统更安全;同时还通过开放架构的SOA平台,可轻松实现和第三方系统对接。这些,都让iMC
DCM2.0帮助用户更好地实现各种业务的交付。

疑难问题定位:基于采集的“大数据”和实时分析,及时发现偶发性丢包和流量黑洞等。

总结:

自动化:自修复,自优化

随着IT技术的发展迈进,数据中心的管理已经进入了一个新时代。统一管理IT资源,实现业务端到端交付的运维管理已经成为了云计算IT管控的核心。在这样的背景下,无论是相关的运维解决方案服务提供商还是最终的企业信息化管理者,都必须及时认清IT资源对于运维的重要性。分散资源,集中管理,这依然是IT运维的核心理念,但是在这个理念中,如何保证业务的端到端交付,已经成为了重中之重。

传统的网络运维架构是一个单向的系统,而不是一个负反馈系统。网络运维包括两个方向:管理员在下行方向配置网络,然后通过上行方向获得网络的状态,也就是说,网络的部署和状态是割裂的,通过管理员进行有限的沟通。这种机制显然无法满足网络故障自修复和网络自优化的需求。自动化的运维需要构建
“闭环”运维架构,具体包括:

延迟修复:发现故障后,首先隔离故障,不影响现有业务。

诊断修复:结合采集的“大数据”和经验数据库,进行自动修复或给出明确的修复方案。

网络优化:及时发现网络存在的“病态”,如流量不均衡和流量拥塞风险等,通过闭环系统,由网络部署系统自动进行调整,把故障消灭在萌芽状态。

HOW:SDN运维方案

基于SDN下的运维新变化,华为分解了运维的生命周期,构建了“闭环”的运维负反馈系统,称为Fabric
Insight架构,包括如下4个模块:

Monitor:监视

为了解决实时,海量的数据监视,需要在如下两个方面改进方案:

改造采集通道,满足海量数据上报:对于中规模的数据上报,采用gRPC等高效的采集通道替代SNMP等;对于大规模的数据上报,直接采用数据面基于UDP的采集通道,消除管理面CPU的带宽限制。

改造采集点,满足高频采集:在数据中心交换机上设计专门的高频采集部件,满足毫秒级的事件采集。

Detector:探测

未来及时发现端到端业务路径的质量,需要通过实时发送探测报的方式,对网络进行“扫描”。区别于传统机制的“随机扫描”,华为结合网络的拓扑和路由,支持更精确的“定向扫描”,可以做到真正的全网全覆盖。基于这种能力,管理员就不再是“救火员”,而是运筹帷幄的“诸葛亮”。

Metrics:度量

在某些情况下,网络质量显示正常,但是应用体验下降。探测机制无法解决这种问题,就需要基于真实的业务流进行度量,发现该业务流是否存在丢包和时延问题,如果丢包,丢包位置在哪?如果时延大,是什么因素造成的?

Diagnosis:诊断

诊断就像老中医看病,通过Monitor、Detector和Metrics进行“望闻问切”后,再结合经验库的案例,定位出问题的根因。诊断部件由一系列的工具组成,每个工具针对特定的问题。比如环路诊断工具、丢包诊断工具等。

华为秉承开放的理念,开放基本的运维API,客户可自助地开放和定制自己的诊断工具集。

【编辑推荐】

  1. 浏览器云时代
    傲游在线收藏更给力
  2. 傲游CEO陈明杰:与英特尔紧密合作迈向云时代
  3. 金蝶中间件研究院院长滕腾:云时代企业IT面临的问题
  4. 云时代稳定为先 Windows Server
    2012的维稳杀手锏
  5. APM:云时代下的那些两难分岔路口

【责任编辑:51CTO_OS TEL:(010)68476606】

为帮助企业应对各种性能困扰,提升IT架构性能,Riverbed提供了最全面的平台,确保理想的应用性能,持续的数据可用性,并主动监测和解决性能问题。Riverbed助力混合型企业将应用性能转化为竞争优势,最大化员工生产率,借助IT创造新型运维灵活性。

如您想了解更多关于Riverbed的信息,可以扫描下面二维码关注Riverbed官方微信:

图片 5

发表评论

电子邮件地址不会被公开。 必填项已用*标注