北极星

搜索历史清空

  • 水处理
您的位置:电力配售电能源服务技术正文

【解析】如何进行分布式大数据应用调优

2015-06-05 16:20来源:TechTarget中国关键词:大数据分布式应用DBA收藏点赞

投稿

我要投稿

大数据应用调优

大数据通常意味着一个需要高速数据分析软件的大型数据存储。很多时候这些大数据部署与企业数据仓库共存。这意味着DBA人员必须与数据仓库人员进行协作以保证良好的性能。下面提到的一些点需要我们充分考虑:

存储于非常大的DB2表中的大数据可能会有特殊的恢复需求。考虑一个要每天进行分析的事务数据的大型存储。业务管理者可能会认为此分析对日常生产至关重要,从而指定此数据为关键任务。如果发生故障,这些数据要怎样才能恢复呢?对于一个数据仓库最佳的做法就是指定数据在恢复上为低优先级的。

存储在DB2表中的大数据可能需要DBA去降低或是最小化数据上索引的数量。虽然通常来说可以添加多个索引到一个表来改善查询性能,而对于非常大的表其索引也会很大。磁盘存储限制可能会阻止DBA创建某些索引。此外,更多的索引会减缓数据插入性能,同样还会让任何数据库恢复过程运行更长的时间。

置于一个专门的软硬件一体化设备中的大数据必须经常由数据仓库表同时进行访问。这通常是利用SQL连接语句加以实现的。DBA必须协调大数据设备的加载和数据仓库的ETL流程以确保所有数据在查询阶段是可用的。

数据仓库访问优化

最后一点也是最重要的。数据仓库的ETL流程有其自身独特的性能问题。数据提取流程通常会作为多个并行数据查询流程加以执行。数据仓库团队可能会使用高速网络来加速这一流程。由于可操作数据可能不是以易于分析的形式呈现的,因此数据转换需要编程技能。常见问题有空值,缺失或未知数据,甚至是诸如日期值为 “99/99/9999”的无效数据。

最后,加载流程通常包括多个针对仓库表并发加载的工具。加载通常是长期运行和资源密集型的。

由于分布式应用试图访问大数据,它们也不可避免的会访问数据仓库数据。再次,DBA必须将此过程与数据仓库ETL过程加以协调。

常见的方法是架设有两个分区的表,活动和非活动分区。目标表物理上被分为数据集和分区。一个分区被指定为活动分区,而一个控制表或参数被设置用来指示哪个分区是活动的。分布式查询现在可能访问活动的数据,允许加载流程把数据加载到非活动分区。一旦加载完毕,活动和非活动标记就会切换。

分布式处理和大数据

优化分布式访问性能的一个最佳实践是使用资源约束分析。DBA会在收集性能数据的时候监视诸如磁盘子系统和CPU之类的资源。甚至查询和工作运行时间也可以被当做是资源。当DBA发现某项资源受限时,他们会平衡其他资源以进行弥补。

例如,考虑一个被多个分布式应用经常查询的大数据存储。DBA可能会确定运行时间(资源#1)太长。一项资源均衡操作可能会添加更多的索引到表中。这样便在加速了查询时间的同时使用了磁盘存储空间(资源#2)。

其他均衡操作包括删除索引,为DB2分配额外内存,增加DB2的排序工作区,查询调优,等等。这些以及其他方法都是记录在DB2性能手册中的。

总结

大数据可能意味着大的性能问题,并且通过分布式应用程序进行访问会将这些问题进一步复杂化。DBA可以通过考虑以下方面来主动了解这些问题:

数据库设计选项(活动/非活动分区,索引选择,分散数据到整个物理数据集);

利用Explain优化分布式查询;

协调大数据访问和数据仓库访问;

执行资源约束分析。

分布式应用程序对于DBA来说可能会是个挑战。通过解决当前以及潜在的数据可用性问题作为开始,尤其是那些企业数据仓库中的问题。一旦这些担忧得以缓解,那么DBA就可以开始管理对大数据的分布式数据访问。

延伸阅读:

祁明:大数据为企业转型插上翅膀

原标题:如何进行分布式大数据应用调优
投稿与新闻线索:陈女士 微信/手机:13693626116 邮箱:chenchen#bjxmail.com(请将#改成@)

特别声明:北极星转载其他网站内容,出于传递更多信息而非盈利之目的,同时并不代表赞成其观点或证实其描述,内容仅供参考。版权归原作者所有,若有侵权,请联系我们删除。

凡来源注明北极星*网的内容为北极星原创,转载需获授权。

大数据查看更多>分布式应用查看更多>DBA查看更多>