北极星

搜索历史清空

  • 水处理
您的位置:电力风电风电产业报道正文

基于云平台的风电大数据系统搭建策略研究

2016-09-18 17:20来源:《中国国电》作者:王寅生 朱志成 王其乐 尹诗关键词:风电企业大数据风电技术收藏点赞

投稿

我要投稿

整个云支撑平台系统结构如图2所示。云平台由一个运营管理平台和一个或多个资源池系统组成。物理设备主要包括X86服务器、网络设备、存储设备,为IaaS服务提供最底层的物理资源。在虚拟化层是通过虚拟化软件(如VMware ESXi、Citrix XenServer或KVM)对物理层的硬件设施进行虚拟化处理,形成Hypervisor虚拟层面的资源池系统。采用虚拟化软件将物理设备资源形成一个或多个虚拟出来的资源池,提供计算能力、网络功能和存储能力。该资源池系统可提供用户传统使用基础IT资源、计算能力、网络功能和存储能力。该资源池系统可根据需要动态改变资源分配的规模,快速适应不同应用的扩容需求,实现“弹性”资源的分配能力。

管理系统是通过云管理平台来实现资源统一管理和业务统一管控的自动化系统。云管理平台作为资源管理系统,主要是管理资源池系统及资源池系统中的各种资源的调度、分配和调整。

1)数据支撑平台。

大数据平台由分布式文件系统、分布式资源管理框架、数据采集标准工具、多租户数据探索平台,实时数据在线处理,交互式多租户数据探索,接口访问层,如图3所示。

数据采集工具:外部关系数据利用Sqoop技术导入数据到分布式数据库中,外部的日志数据利用Flume工具进行数据导入,实时生产数据用Kafka消息队列进行数据收集。

分布式文件系统:基于 HDFS 的大数据存储和在线服务系统,同时支持Erasure Code以及HDFS文件加密。Hadoop分布式文件系统(HDFS)是运行在通用硬件上的分布式文件系统。HDFS提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS已经在各种大型在线服务和大型存储系统中得到广泛应用,已经成为海量数据存储的事实标准。

实时数据在线处理引擎:采用内存处理技术,快速进行数据的实时存储和分析在线处理引擎应用逻辑以DAG形式的服务常驻在集群内存中,生产系统的消息通过实时消息队列进入计算集群,在集群内以Pipeline方式被依次处理,完成ETL、特征提取、策略检查、分析告警等复杂服务计算,最终输出到HBase等存储集群或者告警页面、实时展示页面等。系统具备强扩展性、强容错、低延迟、高吞吐等特点,成熟应用于传感器网络数据处理、服务监控。

内存计算引擎:提供大数据的交互式SQL统计和R语言挖掘能力;支持将二维数据表缓存入独立的分布式内存(或SSD)中,建立列式存储、分区/分块和索引,采用改进后的Apache Spark作为执行引擎,SQL执行性能比 Apache Hadoop/Hive快10~100倍左右,性能超过主流MPP数据库2倍到10倍。同时兼容Oracle PL/SQL和HiveQL语法,自动识别不同语法,支持存储过程和函数,支持常用 Oracle扩展函数。完整的SQL支持帮助用户平滑地从原有关系数据库迁移到大数据平台。

分布式资源管理框架:将资源封装在容器中,资源包括内存、CPU等。不同的应用根据实际资源需求,请求不同个数以及大小的容器。基于YARN的资源调度与隔离,用户可以根据不同需求,启用多个内存分析计算引擎。如对流处理的分析应用,对于在线实时数据内容的统计分析应用,对于离线数据仓库的统计分析应用,以及使用R语言进行数据探索以及挖掘的应用等。

投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

风电企业查看更多>大数据查看更多>风电技术查看更多>