登录注册
请使用微信扫一扫
关注公众号完成登录
我要投稿
大数据应用调优
大数据通常意味着一个需要高速数据分析软件的大型数据存储。很多时候这些大数据部署与企业数据仓库共存。这意味着DBA人员必须与数据仓库人员进行协作以保证良好的性能。下面提到的一些点需要我们充分考虑:
存储于非常大的DB2表中的大数据可能会有特殊的恢复需求。考虑一个要每天进行分析的事务数据的大型存储。业务管理者可能会认为此分析对日常生产至关重要,从而指定此数据为关键任务。如果发生故障,这些数据要怎样才能恢复呢?对于一个数据仓库最佳的做法就是指定数据在恢复上为低优先级的。
存储在DB2表中的大数据可能需要DBA去降低或是最小化数据上索引的数量。虽然通常来说可以添加多个索引到一个表来改善查询性能,而对于非常大的表其索引也会很大。磁盘存储限制可能会阻止DBA创建某些索引。此外,更多的索引会减缓数据插入性能,同样还会让任何数据库恢复过程运行更长的时间。
置于一个专门的软硬件一体化设备中的大数据必须经常由数据仓库表同时进行访问。这通常是利用SQL连接语句加以实现的。DBA必须协调大数据设备的加载和数据仓库的ETL流程以确保所有数据在查询阶段是可用的。
数据仓库访问优化
最后一点也是最重要的。数据仓库的ETL流程有其自身独特的性能问题。数据提取流程通常会作为多个并行数据查询流程加以执行。数据仓库团队可能会使用高速网络来加速这一流程。由于可操作数据可能不是以易于分析的形式呈现的,因此数据转换需要编程技能。常见问题有空值,缺失或未知数据,甚至是诸如日期值为 “99/99/9999”的无效数据。
最后,加载流程通常包括多个针对仓库表并发加载的工具。加载通常是长期运行和资源密集型的。
由于分布式应用试图访问大数据,它们也不可避免的会访问数据仓库数据。再次,DBA必须将此过程与数据仓库ETL过程加以协调。
常见的方法是架设有两个分区的表,活动和非活动分区。目标表物理上被分为数据集和分区。一个分区被指定为活动分区,而一个控制表或参数被设置用来指示哪个分区是活动的。分布式查询现在可能访问活动的数据,允许加载流程把数据加载到非活动分区。一旦加载完毕,活动和非活动标记就会切换。
分布式处理和大数据
优化分布式访问性能的一个最佳实践是使用资源约束分析。DBA会在收集性能数据的时候监视诸如磁盘子系统和CPU之类的资源。甚至查询和工作运行时间也可以被当做是资源。当DBA发现某项资源受限时,他们会平衡其他资源以进行弥补。
例如,考虑一个被多个分布式应用经常查询的大数据存储。DBA可能会确定运行时间(资源#1)太长。一项资源均衡操作可能会添加更多的索引到表中。这样便在加速了查询时间的同时使用了磁盘存储空间(资源#2)。
其他均衡操作包括删除索引,为DB2分配额外内存,增加DB2的排序工作区,查询调优,等等。这些以及其他方法都是记录在DB2性能手册中的。
总结
大数据可能意味着大的性能问题,并且通过分布式应用程序进行访问会将这些问题进一步复杂化。DBA可以通过考虑以下方面来主动了解这些问题:
数据库设计选项(活动/非活动分区,索引选择,分散数据到整个物理数据集);
利用Explain优化分布式查询;
协调大数据访问和数据仓库访问;
执行资源约束分析。
分布式应用程序对于DBA来说可能会是个挑战。通过解决当前以及潜在的数据可用性问题作为开始,尤其是那些企业数据仓库中的问题。一旦这些担忧得以缓解,那么DBA就可以开始管理对大数据的分布式数据访问。
延伸阅读:
特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。
凡来源注明北极星*网的内容为北极星原创,转载需获授权。
5月5日,山东淄博供电公司依托自主研发的“电力宝”综合性大数据分析工具,统计分析近期十强产业、游客出行、供电保障等方面的电力大数据情况,依据分析结果撰写电量分析报告,并报送给政府相关部门,服务城市建设及产业发展。电力大数据能够综合反映经济社会发展状况和各行业生产经营状况,为做好供电
4月29日,山西对《山西省数据工作管理办法》(征求意见稿)公开征求意见。其中提到,山西省人民政府工业和信息化、能源等部门应当推进工业、能源数字化,加强工业互联网、能源数字化建设,围绕煤炭、电力、焦化、煤化工、钢铁、装备制造等传统优势产业,加快推动研发设计、生产制造、经营管理、市场服
在数字经济时代,全社会数据总量呈爆发式增长,支撑海量数据存储计算的数据中心和算力网络逐步成为支撑各行业数字化转型的重要新型基础设施。数据中心在创造经济价值的同时,其能耗也逐渐成为全社会关注的焦点。数据中心节能降耗是大势所趋。国网河北省电力有限公司充分发挥电力数据价值,积极探索服务
近日,国家发展改革委办公厅、国家数据局综合司印发《数字经济2024年工作要点》(以下简称《工作要点》),对2024年数字经济重点工作作出部署。为全面贯彻落实党的二十大和二十届二中全会精神,按照中央经济工作会议和全国两会部署,支持数字经济高质量发展,深入实施推进《“十四五”数字经济发展规划
乌兰察布市源荷互动绿色大数据中心示范项目位于察右后旗境内,于2月27日启动,是一座100兆瓦分散式风电项目,该项目可降低电网多次升降压和长距离输送的电能损失,具有良好的社会综合经济效益。截至4月23日,项目20台风机吊装、集电线路放线都已完成,升压站设备基础完成80%。
4月18日,在河北省昌黎县朱各庄镇下庄村的农田里,几十台播种机来回穿梭,将种子埋入土中。种植户们启动水泵,通过滴灌管道浇水。当天,冀北昌黎县供电公司朱各庄镇供电所员工王伟和孙奉江来到下庄村,巡检排灌变压器及10千伏灌溉用电线路。下庄村有农田7300多亩,主要种植玉米、花生、白薯等农作物。
国家电网有限公司高质量发展工作会议暨2024年第二季度工作会议提出,坚持问题导向和系统观念,推动公司高质量发展和电网高质量发展。数字化智能化是电网高质量发展的支点,要聚焦应用赋能,聚焦新型电力系统建设,聚焦人工智能创新应用,发挥好数据要素价值。国家电网有限公司大数据中心认真贯彻落实会
4月7日,陕西省发展和改革委员会印发《陕西省培育千亿级化工材料产业创新集群行动计划》,其中提到,加强源头减碳、过程减碳、终端固碳,创建10个以上示范性绿色化工园区、绿色工厂,开展绿色化工产品认证,推进化工材料产业绿色制造体系不断完善。二是提升产业数字化智能化水平。并且,加快5G、大数据
4月8日,记者从国网浙江电力获悉,该公司打造的“浙江省新能源e平台”上线运行。这一平台全量接入了浙江省风、光、水、生物质能等全品类新能源数据,能够动态监测分析全省新能源装机发电情况,解构全省各品类新能源运行趋势,助力浙江新能源消纳与高质量发展。“浙江省新能源e平台”主要包含一屏总览、
据国网浙江省电力有限公司4月8日消息,当日“浙江省新能源e平台”正式上线运行。该平台全量接入了浙江省风、光、水、生物质能等全品类新能源数据,能够动态监测分析该省新能源装机发电情况,解构各品类新能源运行趋势,助力浙江新能源消纳与高质量发展。据了解,“浙江省新能源e平台”主要包含一屏总览
4月2日,国网天津经研院规划评审中心支撑数字化部完成“基于能源电力大数据的天津碳排放监测及运营服务科技示范工程”工作方案的编制。该工程是国家电网公司首批新型电力系统原创技术策源地科技示范工程,将充分释放电力大数据价值,在多源能源数据汇聚融合、碳监测标准建设、碳核算体系构建、新兴业务
1月3日,吉林省通化市人民政府印发《通化市碳达峰实施方案》,《方案》明确加快建设新型电力系统。充分发挥我市水力资源丰富优势,建设抽水蓄能电站,大力开发太阳能、风能、生物质能等非化石能源,构建以新能源为主体的新型电力系统,提升清洁能源本地消纳能力,促进绿色能源转型。鼓励电网、发电企业
8月10日,安徽省合肥市工信局发布《关于开展2022年度合肥市进一步促进光伏产业高质量发展若干政策支持分布式应用项目补充申报的通知》。通知明确,对装机容量1兆瓦时及以上的新型储能电站,自投运次月起按放电量给予投资主体不超过0.3元/千瓦时补贴,连续补贴不超过2年,同一企业累计最高不超过300万元
在《巴黎协定》框架下,1.5℃温控目标成为全球热点,电力工业则承担了最重的减碳任务,也应该是最先实现低碳转型的行业。气候变化是人类社会可持续发展面临的最大威胁,《巴黎协定》是一个里程碑,它体现了全球的高度共识。能源是影响气候变化的重要因素,能源转型对于应对气候变化十分重要。尽管能源
用北极的风,能否点亮你家的灯?正在大连举行的2017年夏季达沃斯论坛上,能源革命的话题成为与会嘉宾关注的热点。人们在关心全球清洁能源能否通过超级电网远距离输送的同时,也在关注未来生活的变化:如何让新能源电力不再发得多、用得少?如何让风电、光电等清洁能源走进千家万户?城市雾霾会因为能源
用北极的风,能否点亮你家的灯?正在大连举行的2017年夏季达沃斯论坛上,能源革命的话题成为与会嘉宾关注的热点。人们在关心全球清洁能源能否通过超级电网远距离输送的同时,也在关注未来生活的变化:如何让新能源电力不再发得多、用得少?如何让风电、光电等清洁能源走进千家万户?城市雾霾会因为能源
2017年3月31日,在浙江省能源局的大力支持下,由浙江省能源联合会、中国可再生能源学会主办,浙江陈川新能源作为支持单位,北京京运通科技股份有限公司、华为技术有限公司承办的“全国智能光伏分布式应用交流会”在浙江省杭州市成功举办。来自政府、电网公司、电力设计院、电站开发与EPC、分布式业主、
我国风电、光伏装机容量已成为全球最大,但弃风、弃光问题始终存在,今年上半年,西北地区弃风、弃光问题愈加严重。专家认为,弃风、弃光率居高不下问题的根源在于电源建设过快而消纳能力开发不足,需要进一步优化新能源的布局结构,同时推动分布式能源的发展,减轻下游的消纳压力。西北地区风能、太阳
中国光伏发电应用不但有大规模的太阳能电站,还有农业光伏大棚、屋顶光伏等多种形式,相信今后随着我们不断创新,不断发展,可以把智能控制技术,把互联网技术、信息技术应用到这些领域,我们会把太阳能应用的更加充分。在德州市举行太阳能十项全能竞赛这样的活动将会为德州的发展注入新的活力,将为新
近日,浙江省杭州市发改委和太阳能光伏产业协会,联合发布了杭州市分布式光伏项目应用地图,成为全国第一个发布本地光伏应用地图的城市。据了解,目前杭州市已建成和在建67个分布式光伏项目,数量居全国第一,总装机容量为70.63兆瓦,每年相当于可为国家节约4万吨标准煤,减少二氧化碳排放量9万多吨。政策引导效应显现自去年10月以来,国家政策给分布式光伏发电应用提供了巨大的发展空间。“有了政策的支持,未来十年是分布式光伏发电黄金时期。对于东部地区来说,以自发自用为主的光伏电站将大量涌现。”杭州市太阳能光伏产业协会秘书长赵永红在接受采访时说,&
日前,中国能源局发布了《国家能源局关于印发2014年能源工作指导意见的通知》,指导意见围绕确保国家能源战略安全、转变能源消费方式、优化能源布局结构、创新能源体制机制等四项基本任务。指导意见提出,大力发展清洁能源,促进能源绿色发展。坚持集中式与分布式并重、集中送出与就地消纳结合,稳步推进水电、风电、太阳能、生物质能、地热能等可再生能源发展,安全高效发展核电。2014年,新核准水电装机2000万千瓦,新增风电装机1800万千瓦,新增光伏发电装机1000万千瓦(其中分布式占60%),新增核电装机864万千瓦。加快发展太阳能发电,落实国务院《关于促进光伏产业健
请使用微信扫一扫
关注公众号完成登录
姓名: | |
性别: | |
出生日期: | |
邮箱: | |
所在地区: | |
行业类别: | |
工作经验: | |
学历: | |
公司名称: | |
任职岗位: |
我们将会第一时间为您推送相关内容!