北极星

搜索历史清空

  • 水处理
您的位置:电网信息化云计算人物正文

国家信息化专家邬贺铨:大数据时代的发展趋势

2013-07-24 16:29来源:CIO时代网关键词:大数据CIO云计算收藏点赞

投稿

我要投稿

大数据推动城域网体系的演变,早年我们都是大计算机连大服务器,后来常常很多时间提的是客户服务器,计算机连到服务器。当一个热门的节目所有终端都希望下载的时候,这个服务器就是瓶颈。因此就出来了P2P,也就是说,各个终端能力都很强,每个终端没必要全部下载下来,每个终端只下载其中一部分,各个终端下载不同的部分然后相互交换,我们叫做Peer-to-Peer,现在很多发现这个体系架构也需要改变了,因为大数据的出现,一个终端到一个服务器之间很多数据不是一个服务器能装得下的,当一个终端接入到一个服务器的时候,可能需要调用其他服务器存储数据来支持,因此最近五年我们国家接入网流量带宽增长了6倍,而城域网流量增长了22倍,有更大流量在服务器之间交换。也就是说,网络的体系会从客户服务器的垂直架构向服务器之间的水平架构优化。大数据推动了城域网体系的演变。

另外,由于数据量很大,所以现在Google、雅虎、亚马逊、腾讯、新浪、百度都纷纷的把它的数据通过CDN写到不同地方。腾讯总部在深圳,可是它把很多服务器放在北京、广州、上海等等,甚至分散到很多省,目的是缩短用户接入到服务器的距离,所以内容分配网应用而生,最近发展得很快,内容分配网会对整个互联网流量流向产生重大的影响。走了捷径,那么省间长途流量就可以下来。所以内容分配网拉近了信源和用户的距离。全球互联网去中心化,这个图是全世界用户互联网带宽,国际互联网带宽是增加的,但是比例是下降的。左上角的图就是美国全球各个州到美国的国际互联网的流量,除了上面的线是拉丁美洲,下来之后略有回升,其他的亚洲、欧洲、美国互联网国际流量比例是下降的,也就是说绝对值增加、相对值下降,这是因为很多东西只需要就近访问,并不需要跨洋越境了。

第四,大数据挖掘的挑战。大数据技术涉及到数据采集、数据存储、数据计算、数据挖掘、数据呈现、数据安全等,涉及到很多环节。比如说挖掘就需要对数据进行清洗,进行合并、压缩,要转换格式,然后进行统计分析,知识发现以及可视化处理。然后找出它的关联规则,分类、聚类,排序列,优化路径。这里涉及到一大批的数据挖掘的软件,简单来说,首先是MapReducers,左边的图上很多数据,不同颜色表示不同类型,首先通过Map把这些数据进行分类,不同业务类型的数据分到不同的存储服务器里头,这样就是为了简化运算,在分类过程当中数据是要加标签的,同时要把重复的去掉,这是进行大数据的预分析前的一些操作。另外,大数据需要有很多服务器。曾经有人认为买高端服务器才可靠,后来Google首创利用低端的服务器,它认为没必要用高端,只要用低端服务器就够了,而低端服务器可靠性不好,怎么办呢?冗余配置。就是把一个数据拷到三个服务器里头,三个低端服务器的价格仍然比一个高端的服务器便宜,这样一来既提高可靠性又降低了成本。所以大数据的分析需要分布存储和冗余备份。还有Map Reducers要通过映射、调度,最后把结果归纳起来得出我们要得结果。大数据跟过去的分析不一样,过去的数据都是存下来,存到静止的数据库里头,然后再分析。而大数据每时每刻都有,比如说几毫秒就要送一个数据出来,飞机引擎也是不断的送数据出来,数据根本没有停止的时候,我们不可能等数据停下来再来分析,我们必须一边走一边分析,怎么办呢?过去的分析是静止的,叫做“带数据进程序”,现在的分析是在活动的,也就是“带程序进数据”。所以大数据分析也会带来很大的挑战。

另外,更难的挑战是非结构化的数据。所谓结构化就是说可以用文本表格等方式来表达,即便文本表格表达从语意理解还是比较难的。比如地震的时候,网络上为了监控舆情,看看究竟是正面的评论多还是负面的评论多,有一条信息说“当他发现他儿子还活着的时候,他抱头痛哭。”按照分析,“痛哭”肯定是负面的。但实际上这是正面的。这是因为什么呢?要让计算机懂得人的感情,这就难了。文字的分析况且这么难,那么对照片的分析就更难了,要通过OCR扫描出里面的文字,把文字作为标签加到照片上。照片还好说一点,而视频分析就更难了,你怎么找这个人?去年1月份周克华在南京杀了人,当时摄像头把他拍下来的,南京市调出几十万个摄像头视频,拍多长就要看多长,没有分析的办法就靠人看,所以这是很慢的。因此大数据互换智能化的处理、智能化的分析。

另外,大数据需要虚拟化和可视化。举个例子,上海江苏路,路上有很多摄像头,每个摄像头背后连一个电视屏幕,在交通管理中心的一面墙上放了很多屏。当然了,再大的墙壁也放不下全上海这么多交通摄像头,所以只能10秒钟显示一条马路的摄像头,这些都是分离的,一个一个看很难看出问题。我们希望通过软件把这条马路的摄像头合成一个视频,只要看这个视频就知道全马路摄像头的状况了。当然只有一条马路还不够,我们还要把它合成全上海一幅图,就像上海市领导坐着直升机俯视上海一样,看到上海市整个城市里头,在东京北纬某个纬度,在某个时刻段,哪段路交通堵塞。大数据,无论数据有多大,无论是PB还是TB,最重要结果都应该非常直观的一幅图。

Gartner公司在发布2012-2016的IT发展趋势,有五点:大数据、云存储、移动应用、社交网络、网络安全。我们可以看到其中最主要的是大数据。大数据推动ICT发展的时代,云计算、移动互联网、下一代互联网、大数据、物联网、社交网络,我叫做“大智移云”,你可以看到这些新的信息技术适应大数据新一代发展。

最后,宽带化、移动互联网、物联网、社交网络等催生大数据,大数据预示信息化发展进入新阶段,大数据是信息化新浪潮的结晶。为适应大数据的需求,光纤通信和移动通信加速宽带化。大数据加快了云计算、CDN和对等直联(或NAP)节点的部署,网络节点位置从信源中心向能源中心转移,信源中心向用户靠拢,互联网显现去中心化。大数据挖掘对数据采集、存储、分析、决策、呈现和安全等技术带来大挑战。谢谢大家!

投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。