北极星

搜索历史清空

  • 水处理
您的位置:电力电力软件安防软件报道正文

阿里“去IOE”战略 开源自主并行——2013电力信息化年会

2013-12-04 09:40来源:北极星电力网关键词:电力信息化年会去IOE电力信息化收藏点赞

投稿

我要投稿

其实从ITC角度来说,我们当时也面临一些切肤之痛,我们经常与运营商打交道,对于互联网企业经常会有挥之不去的问题,比如大家用的微信,就会突然收到消息说某些城市,因为施工挖断光缆导致一些应用要停机多少多少小时,或者某个城市因夏天政府要限电所以机房必须关电,这种情况阿里非常常见,甚至说有的时候网络,突然没有征兆断一下,对于我们IBM系统的话,有可能某一个省大规模下线,或者说空调设备不给力,对我们而言可能需要做到一种能力说,无论哪一种异常情况,我们应用随时随地里做快速跨IDC这种切换。那熟悉我们IOE系统人可能很清楚,当你的SGA,把他开辟到大到超过100个GE的时候,你要赶紧关闭,并且重新提供这个过程,就有可能需要十多分钟,还没有算上当你应用规模大到一定规模时候,你业务重新来切换过程,这种人力协调这样成本,你动不动有可能用半个小时或者近一个小时就拿双十一前半个小时,因为之前也有一些数据放出来,前几分钟就是几个亿,十几个亿过去了,那如果说淘宝断网一个小时两个小时,有很多依赖于淘宝谋生计一些人,可能他收益人会下降,有可能会演变成群体事件,其实对我们而言,这种ITC风险,我们是需要IT架构上来找他们,这其实带给我们不测因素。另外类似于双十一很短时间系统容量扩大原来好几十倍,所以这个是一直制约着我们业务快速前行的一个隐患。

另外商用的产品,对于我们而言,他拥有很好的用户体验,但是唯独当你出现任何底层问题,你需要依赖厂商才能解决,就像我刚才举例子双十一前面,前面30分钟如果出现任何一个问题,我们需要借助厂商力量才能解决黄花菜都凉了,所以这反过来要求我们需要很强把控能力,能深入进我们交换机也好,网络也好,我们的工程师在这儿中间把控起来,但是商用设备摆在这里面给我们黑盒子,他里面怎么运作的,我们可能拆出他原理,但是搞不定他。其实有很多时候,其实会有这么一个情况,当我们碰到问题的时候,这厂商拿着我们数据回去,然后几周时间发给我们,这中间周期非常长,从这个过程中可以看到一点,他们所设计这种场景,其实已经触及不到像阿里互联网这么大规模高并发场景时候,其实他需要典型用户推动他产品进步的,所以在这个时候相当于我们是花钱替别人交学费,所以当我们的开发人员会受到限制。

另外说IOE这些骄气设备,他对环境影响,对环境要求非常高的,他需要专用的机房设备,要铺上钢板,甚至要专用电源,集中部署的时候,对于已经建成机房甚至破门而入,要敲大的洞把他掉进来,就这种情况,如果说应对双十一突然某一个应用场景,要临时做一个决定要推广一个很大促销的话,我们很难做到说是临时即兴系统进行扩容,应对业务快速变化,所以专用设备对我们而言成本非常高。

第四点大家可以想到刚才一个点,就是数千万费用,这个点在阿里有几十个甚至上百个,如果这条路走下去这是一条不归路,所以整体来看成本是我们做这个决定,最初考虑一个因素,当我们做完这个事情之后,回过头来看成本恰恰是最次要因素,这套体系严重拖后腿。

这里简单列一下,从非常好用的商用设备,到开始DIY去做自己一套技术架构,这里讲一下什么原因让我们做这件事,刚才跟大家提到一点在做预算会上有那么一段故事,大家想想,虽然看起来从故事来看,貌似有一定的偶然性,但是联系到我们刚才所碰到各种各样的切肤之痛,业务实际情况已经需要直面很多传统方式难以解决各种难题时候,其实回过头看,我们来做决定有着必然性,从外部环境讲PC机和FLASH技术是成熟的,一台PC机他处理能力与以前一台小型机处理能力不相上下,而Flash技术性价比也越来越高,这些已经为我们做这个决定创造了很好外部环境。

另外我们在2009年内部做应用改造,改造过程中把一些相对来说比较通用一些技术中心化,以强有力的方式去对接,各种各样应用,比如说我们在中间已经沉淀下来,我们内部几大C,IC、TC,IC是属于我们商品,TC是交易系统,我们把这些很重要核心往下沉,把他具体应用剥离起来,把他做成很强大一个服务,所以这些外部环境逐步具备时候,已经可以开始做这些事了。

简单说下第一个做去IOE系统,也就是商品库,外部觉得阿里做这件事情轻而易举,但我们内部争论非常大,首先做这件事情从全球范围之内没有成功经验借鉴,包括我们第一次做决定说要用PC技术代替小型机时候,所有人都反对,大家觉得这种决定不靠谱,当你做这个决定,其实意味着我们要在很多技术可行性上要做非常完备的铺垫和调研,我们分成三步来完成我们最大商品库去IOE,完成这个之后我们认为已经基本掌握整个去IOE相关核心技术,首先把一部分读力量拆出去,另外去小型机过程当中同时去IOE,其实对我们来说难度很大,先把小型机去掉,当我们已经在积累信息时候逐步往前迈。

简单列几个数字,在商品库解决这些问题我们哪些收获?第一,我们后面连续两年几乎可以做到稳定性100%,连续两年对外服务从没中断过,这个难度要求非常大,传统企业几乎没有一个企业能做到。第二我们成本,用原来20%成本把容量做到原来500%到600%,这中间的差距大家一比较就可以看出来。另外类似于像双十一我们整个系统扩容非常简单,甚至我们大部分可以让机器去干,自动化支撑体系中间发挥非常大作用。

这里简单列一下我们去IOE过程当中对于阿里几个很重要一些关键结点,从这张图上可以看到我们的从起动第一个,我们从商品库分几个完成去IOE,这中间用大概一年多时间,一年半,但是后期我们完成了,我们积累经验之类,后期的其他核心的系统,我们的节奏推进非常快,并且随着后期我们团队整合过程当中,就在几个月我们阿里最大现金流系统,一天大概数亿资金在这上面流过。

这里几张是我们,前面一个是淘系在做去IOE,其实很简单就几张照片,但是最后我们的,这是支付宝最后一台小型机下线,当这个点完成之后,因为阿里所有系统都跑在PC机上,这个PC机和市场上买的普通PC机,PC服务器没有任何区别,他就是标准机,没有任何复杂技术在这中间。

投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

电力信息化年会查看更多>去IOE查看更多>电力信息化查看更多>