详解｜一文带你暴力拆解大数据-第9页-北极星输配电网

投稿

我要投稿

Hive：数据仓库工具，由Facebook贡献。

Zookeeper：分布式锁设施，提供类似GoogleChubby的功能，由Facebook贡献。

Avro：新的数据序列化格式与传输工具，将逐步取代Hadoop原有的IPC机制。

Pig:大数据分析平台，为用户提供多种接口。

Ambari：Hadoop管理工具，可以快捷的监控、部署、管理集群。

Sqoop：用于在Hadoop与传统的数据库间进行数据的传递。

说了这么多，举个实际的例子，虽然这个例子有些陈旧，但是淘宝的海量数据技术架构还是有助于我们理解对于大数据的运作处理机制:

淘宝大数据

如上图所示，淘宝的海量数据产品技术架构分为五个层次，从上至下来看它们分别是：数据源，计算层，存储层，查询层和产品层。

数据来源层：存放着淘宝各店的交易数据。在数据源层产生的数据，通过DataX，DbSync和Timetunel准实时的传输到下面第2点所述的“云梯”。

计算层：在这个计算层内，淘宝采用的是Hadoop集群，这个集群，我们暂且称之为云梯，是计算层的主要组成部分。在云梯上，系统每天会对数据产品进行不同的MapReduce计算。

存储层：在这一层，淘宝采用了两个东西，一个使MyFox，一个是Prom。MyFox是基于MySQL的分布式关系型数据库的集群，Prom是基于HadoopHbase技术的一个NoSQL的存储集群。

查询层：在这一层中，Glider是以HTTP协议对外提供restful方式的接口。数据产品通过一个唯一的URL来获取到它想要的数据。同时，数据查询即是通过MyFox来查询的。

最后一层是产品层，这个就不用解释了。

相关阅读：

【推荐】面向全球能源互联网的电力大数据基础体系架构！

投稿与新闻线索：陈女士微信/手机：13693626116 邮箱：chenchen#bjxmail.com（请将#改成@）

订阅北极星周刊，精彩内容不再错过！

特别声明：北极星转载其他网站内容，出于传递更多信息而非盈利之目的，同时并不代表赞成其观点或证实其描述，内容仅供参考。版权归原作者所有，若有侵权，请联系我们删除。

凡来源注明北极星*网的内容为北极星原创，转载需获授权。

阅读下一篇

三方推进配电变压器更高效节能

大数据查看更多>智慧城市查看更多>智能电网查看更多>