季晓文：谈云数据中心实施基础设施的管理-北极星电力软件网

投稿

我要投稿

主持人：在张老师的演讲里告诉我们，我们现在用的UPS是成本比较高，管理比较麻烦，另外一个可靠性怎么样，大家对UPS的可靠性有一些印象，有一些故障还是发生，现在我们从供电转移，我们思考另外一个问题，在我们整个数据中心管理里面，就是说我们一方面关心里面的电网这些基础设施，另外一方面是IT，我们在我们数据中心怎么样把IT的管理和一些技术管理做到一体化的管理，下面有请艾默生高级工程师季晓文先生。

季晓文：大家好，今天非常容幸，有机会跟大家做这样一个汇报，接下来我的主题是云计算数据中心实施基础设施的管理，这个包含了物理层的关系，到机架系统，以及到我们常规的IT硬件的设备系统，IT从软的来讲是IT从硬的来讲是提供了承载的支撑，UPS这一块对它提供了供配电的支撑，对它进行了散热的支撑，他们之间是互联的，所以说原先我们讲很多东西的时候，会把我们整个支撑系统和IT系统分开，IT设备来讲怎么讲更多考虑它软的特性，现在对超大的数据中心，可能我们需要结合在一起，本身它们相互关联，第二个运维这个方面，这个很难把它扯开，这方面我们应该参考，在很多行业里面非常适用这个模型，对于企业和数据中心我们都不是从零开始，都是从现在开始往前迈进，成熟模型的好处，让我们识别自己现在在哪个格子里面，每个格子向前迈进所需要的资源，以及实现的目标都有所不同。我从第一格跳到第五格，这时候对我人和设备的要求我难以承受，这个承受是不是在于我能够承受我的业务停，我保障我业务的联系，我识别自己在哪个格子里面往前走，对我业务支撑来讲应该更好。

在设计、设计规划、以及建设这一方面来讲，已经有非常成功的市场基础和技术基础，特别是我们的模块化这样的一个数据中心，我们在云这个时代来讲，你很难估量你业务的规模，有时候业务增长的规模超出你的想象，我们很难说，我们用一步到位的规划我们数据中心和设计我们数据中心，这时候模块的方式非常好，从宏观的角度，第二个我能不能在微观上增加容量，这两个都是模块化的思路，后一个思路可能更大一些，导致前期投入会大，宏观的模块化和仓储这个成本比较均摊一些，走哪条路，其实都跟用户自己和自己将来业务的思量有很大的关系，在这个里面。从管理的角度来讲，我们认为为了实现能效，建设是一方面。我们在建设过程当中有很多可以思量思考的技巧在这个方面。

但是对于长期成本来讲，其实运维过程才是最主要的，原先我们会发现，我们一般来讲我们会对IT智能供配件作为一个假设，我们把假设放在那里不变，我们不去碰触，这样导致一个结果，我们经常谈论搁浅的容量，搁置的容量，我们设计过程中都会在每一个层面上预留一个，我在机架里面再去预留一个，我们把预留的缓冲作为一个红线在那里不放，这个是非常巨大的。你搁置起来不是20%，你搁置到了40%，接近于这样的水平，怎么样把40%里面的一半用起来，其实在你运维当中有一个整体性的考虑，这时候就意味着在运维过程中，可能我要更好的探求，或者知晓整个数据中心，每个层面，每个设计段，每一个空间角落里面，我的容量需求到底是怎么样的，我能不能在我支撑设备调配我的容量过去，满足这个层面。

因此来讲从IT层面来讲的话，其实这种需求量会变得越来越大，原因很简单，其实反映在简单词高密度。我们会想，高密度使得我数据中心里面这样的一个需求，它的一个抖动的幅度低，绝对值增加很大，这个抖动的绝对值其实就反映成我搁置的容量。那么在每个机柜里面都会产生比较大的绝对值的容量，我可以挖掘容量，会比以前高很多，这是不可忽略的，另外一个成分来讲，IT运算的能力，随着云这种概念来讲是浮动的，浮动的调制能力，到正我电子系统对智能供电需求也是可以调制的。这时候我是静态看待这个数据中心，你电器的需求，还是因为IT动态，我电器需求也是动态，我去管理它，这是完全不一样的做法，我要做到动态的看待电器的需求，这就要求我们实施追踪它们。在这个层面上来讲，我觉得非常好的一个切入点在哪里，从机房来讲，这个切入点，这个物理点在机架这个层面上。

我们对于我们所有的供配电和制冷来讲，最终导入到IT设备，电器、电子设备需求点来讲，其实在于机架，包括你称重都是在机架这个层面。机架是衔接我机房外围支撑设施和电子设备的交互点在这个里面，原先我们做数据中心监控系统，我们注重其实是我们外围的这些支撑设备单个的运行状态，当我们把我们监控点移到机架内部，我们监控不是外围支撑设备的状态，我监控的是我IT设备的电子设备，对我支撑设备需求的变化，这是完全不一样的。我的温感，我不计算我空调出风的温度，我服务器进风口的温度，我计算。那么统计出来的电量功率值也是它实施的热量，电就会转成热，我的散热在哪里，我的用电量在哪里，都在机架的层面。整个这个行业，我觉得很多的概念和方案产品来讲，都日新月异，那么今天可能在这里，我推一个理念，能不能给一个智能机架的系统，这个智能机架系统，从物理来讲衔接IT电子设备和外面电器设备的一个中间地带，它是智能。

英特尔开发了很过接口，对于一个智能机架系统，把外围的信息通过这个借口传输给服务器里面，让服务器获得外面场景是怎么样，现在IT设备来讲，它其实是被动的，我能将外围设备提前告知可能有不同的结果在里面，这个概念作为很多厂商来讲是非常重要的一点，这个智能机架来讲，从物理作为一个衔接点存在，这跟现在我们讲的这种机架是完全不一样。他物理上看是机架，它性能是智能的系统。

如果讲到智能，我们要求整个数据中心都是智能的，我不能说这个部分是傻瓜，要求其他部分是智能的，这个没有办法交互，要求维护能力走向一个能够自动数据采集，怎么设计我的系统。哪些设备是智能的这些设备投产你没有任何机会，把傻瓜的设备变成智能的。这一方面需要大家考虑，无限制的投入智能你成本很高，你要决定你管理的深度和广度在什么地方，你定下这个你可以选择你引入设备智能点在哪里，最小的颗粒在哪里，这决定你以后5年7年之后你很难实现改变。一般这样外围的电器设备使用寿命应该是10年一季，一旦你变成傻瓜你很难做，可扩展的设备，通过改造，不影响业务可以变成智能设备，这是一种考量。

那么换成另外一个问题来讲，这个信息量多大。说穿了在云这个时代里面，大多数IT人谈的云，跟今天我所的云有本质的不一样，那个云围绕IT和业务展开，我们认为云的数据中心一个特点是在于高密度，红的亮，红数据中心，不是大数据中心这样一种概念在里面，它的量非常非常大，这个里面，特别是我们把IT的设备，也拉入到数据中心，基础设施这个层面作为一个综合来讲，金字塔的上面走一级越来越小，金字塔往外扩一层你会扩出一个大的东西出来。这个量是你不能去忽略的，大家可以想想原先我们做数据中心监控系统，我们考量设备以百为单位，你把IT的设备都拉进来，你考虑的数据绝对不是百千甚至万为单位这样做的。

现在我们三千瓦，以八千为单位，现在我们估算一个数据中心不是平方米来算是千瓦来算，每千瓦运算能力是多大。那么从这个角度来讲，单机架密度越高，每千瓦的投入量是最低的，这也就代表计算能力，计算密度来讲，会达到最高效率的水平，这个时候你牵涉服务器的数量更加的大。所以数据量和以前有本质不一样。这么大的数据量我该怎么管理，应该切割的管理，还是作为一个整体管理，对于数据中心来讲，我们建设过程中可以模块化的建设，一块一块的建设，作为管理来讲，其实很自然的一个概念，我自己一体管理的，只要我上一个模块，我就加入到我管理系统里面，这是对的。你管理对象切割，我们把冷的观念，把电的管理把机架的管理，IT设备管理分别管理，其实最大的问题在于这些系统之间是相互交叉的，这个机架3千瓦，他供电量是三千瓦，它的供电量也是三千瓦，我们人为切割这些信息不能交会，我们做出决策也是片面的，这是一个根本。

所以说我们想说就是构建一个，我刚才前面所提智能机架的系统，不是围绕机架这个概念去做，作为信息的交会点实现，机架把我们承重智能供配电汇集在一起，这分配给我们IT设备，IT设备对整个环境需求，也体现出来了，我们机架密度，我们一般这样做的，我们现在投入完全新的这样子一个基础实施管理系统很好切入点，在哪里，这个上面，这跟以前不一样的地方。在这个切入点我们说信息量和信息的处理方式，以及信息的交会方式，我们所有的管理都是为了业务服务的。我们所有的数据中心里面的人，都是为业务服务，无论是二线一线都是为了业务服务，我们所有信息交会都要跟我们不同层面的管理信息都能交会，这是非常重要的一点。我在这里比较想注重推出怎么构建一个只能的机架系统，机架是要的。然后在这个里面部署什么，部署大量信息的采集，采集的点，这个采集的点来讲是在于这里面，我们把IT设备拿进来，既然我们也想把我们外面制冷供配电的设备也要放进来，这时候最大的问题在于协议，第二个是什么，协议容易被规划，第二个在于不同社会的模型。

也就是说当我们部署这个系统，这个系统能够更新，因为我们不能这样讲，就是说五年内的设备，和我们五年后的设备集合，数据中心有25%全新设备进来，你现在部署一个系统是死的，只能管理这些设备，那五年之后你要布置新的设备，这时候你碰到最大问题是什么，你新的设备放不进去，你又拆不进新设备，这会导致一个僵局，僵死在这里。最好方法你智能系统能够更新，它能够更新认识识别新的系统，这就是模块的设计，或者其他的一种设计，SOA设计都可以引入在里面。我们传统的信息数据，我们传统系统处理信息来讲，我们把信息全部收集上来，移交我们同一个软件，进行梳理辨别。

我们在运营过程有两类问题，一类是事件处理，故障处理。第二点是信息趋势性的理解，在这个里面，它不急，它反而要全面，第一类我要知道的东西很小，只是比较一些我的参考值，它要很快，这时候也就意味着你对信息的处理，不应该把所有的数据汇总以后进行处理，当它第一次拿到就应该做时时处理，这是跟现在监控系统大不一样的地方。从智能机这个设备有两种，一种是原始数据，第二是它识别异常事件，这样有效解决两类问题。第二个作为管理层来讲，我要大量真实的以及全面的数据，整个架构来讲，对于红这一个数据来讲，在于它不是一个设备解决一批问题，这是不可能，所有东西处理有限，它能够扩展再扩展，甚至于扩到机房外面，扩到另外的城市，所以说你的体系来讲的话，会比以前复杂很多。

特别对一些运营者来讲，节省它整个运营成本形成一个OAS，看到好几个城市，所有的事件异常都会报，这是一个方针。这时候要求这个体系有足够延展的能力，事件处理延展的能力，这都是一些非常新考量，艾默生网络能源为什么会承继相当长时间，现在推出这样一个系统。大家其实也应该认识艾默生，之前有很多监控的平台或者是系统，提出这么多要求，你很难从现在架构采取一种增补删减的方式，构建一个符合这么复杂的系统，这个系统是结合了我们在上面这个层面，比如说我们对这个数据中心管理里面，对用户行为积累的常识积累下面，但是做了革新。这个非常关键的设备我们叫做UNG，同时在我们机架系统里面，我们有更多的PDU，对它来讲的话，它通过整个体系的设计，通过协议的支持能力可以更新，对设备模型的支持能力可以更新，使得它不停的更新，满足你数据中心里面设备的更新换代。

当然我们也能够说，它最终的软件架构可能没有办法支撑十年二十年以后更惊人的数据要求，目前这个阶段来讲，我们认为它是目前满足5年10年数据处理的能力，它采用更加稳健可扩展这样基于企业服务总线，最好的一个软件架构去服务整个系统，在这个里面。从整个产品来讲，我给大家看几个界面，这个界面不是关键，原因我们运维过程中熟悉的一些界面，我们熟悉的操作流程，在这个里面，关键形成这些界面下面数据是怎么被抽取上来，怎么符合红数据中心的概念，以及我们多地运营的概念，这是关键的难点在这个里面。所以我们想这样说，对于一套管理系统来讲的话，其实从厂商的角度来讲，我们向用户提供的是一个工具集，越全越好，能够自我更新最好。

但是从用户使用角度来讲，我们想说你使用是一套系统，我们也认识这一点，给了你工具，就像你从这跨到那，你不仅要好的工具，你也需要对自己管理行为的方式做一些微微的变化，你的变化是比较好，从第一格跳到第五格你的行为发生特别大的变化，为了使这套系统真正落地，我们会配套专业服务的体系，跟随这套系统到您的企业里面，来听您发展的计划，能够来理解你整个长期的规划，以及知道您现在运维的架构，当前数据中心和未来数据中心是怎么情况，落实这套系统，怎么真正在你企业当中落地，真正用起来，我们已经做好了这样的一些准备，如果大家想知道更多的系统，可以访问我们的网站，知道更多的信息。谢谢大家!

投稿与新闻线索：陈女士微信/手机：13693626116 邮箱：chenchen#bjxmail.com（请将#改成@）

订阅北极星周刊，精彩内容不再错过！

特别声明：北极星转载其他网站内容，出于传递更多信息而非盈利之目的，同时并不代表赞成其观点或证实其描述，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

凡来源注明北极星*网的内容为北极星原创，转载需获授权。

阅读下一篇

先进技术支撑“十二五”电网科技发展规划

云数据中心查看更多>UPS查看更多>季晓文查看更多>

姓名：
性别：
出生日期：
邮箱：
所在地区：
行业类别：
工作经验：
学历：
公司名称：
任职岗位：

季晓文：谈云数据中心实施基础设施的管理

先进技术支撑“十二五”电网科技发展规划

登录注册

绑定账号

想要获取更精准资讯推荐？建议您完善以下信息~

订阅成功

想要获取更精准资讯推荐？建议您
完善以下信息~