北极星

搜索历史清空

  • 水处理
您的位置:电力电力新闻市场正文

破解迷雾:关于大数据与Hadoop的九大误区

2015-06-23 14:29来源:51CTO作者:核子可乐关键词:大数据Hadoop分布式消息系统收藏点赞

投稿

我要投稿

误区二:关于大数据的一切都是新生事物

技术人员总是喜欢抛弃过去,而他们所宣扬的首选工具要么前所未见、要么会产生大量后续问题。但这种印象与实际情况并不相符。

举例来说,Kafka分布式消息系统被广泛描述为一款大数据必需的新型工具产品。不过与其它消息系统比较起来,它的功能集显得非常孱弱而且还远称不上成熟。要说其中真正的新生事物,Kafka在架构方面专门针对Hadoop平台而且在设计思路中引入了大量分布式概念。如果能够接受其种种缺陷,那么Kafka确实具备相当的实用性。

也就是说,有时候我们需要使用更为复杂的路由及保障手段。在这类情况下,我们可以使用ActiveMQ或者其它更为稳定可靠的选项。

误区三:机器学习才是解决问题的正道

我估计约有85%的朋友会将机器学习视为一种简单统计方案。但事实上,我们的常见问题往往只需要通过简单的数学与分析机制即可解决,因此不要好高骛远、先从这里起步比较好。

误区四:你很特别

正如哲学家Dirden曾经说过,“你没什么特别。你并不像雪花那样精致而且独一无二。”这里要向大家公布了项调查结果。目前技术业界当中,约有半数从业者忙于编写同样的ETL脚本,旨在为大部分同类数据源进行同样的自定义分析处理。而且在任何规模的企业当中,都有很多部门可能在重复着这方面的工作。

不用说,好好咨询一下是着手推进大数据工作的最佳前提。

误区五:Hive速度极快

Hive速度并不快。它并不能在速度上给人留下深刻的印象。没错,其新版本已经得到了显著改善,但它仍然没办法带来良好的性能水平。它的规模扩展能力出色,不过大家可能需要准备好多种工具来将Hadoop与SQL加以匹配。

原标题:破解迷雾:关于大数据与Hadoop的九大误区
投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

大数据查看更多>Hadoop查看更多>分布式消息系统查看更多>