看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark/Shark的电力用采大数据OLAP分析系统 收藏
基于Spark/Shark的电力用采大数据OLAP分析系统

基于Spark/Shark的电力用采大数据OLAP分析系统

作     者:王亚玲 刘越 洪建光 崔蔚 李彦虎 苏伊鹏 黄高攀 张明明 刘万涛 

作者机构:国网信息通信产业集团有限公司北京100761 中国科学院计算技术研究所北京100190 国网浙江省电力公司浙江杭州310007 国网江苏省电力公司信息通信分公司江苏南京210029 

基  金:国家电网公司科技项目(SGJSXT00YWJS1400072)资助 

出 版 物:《中国科学技术大学学报》 (JUSTC)

年 卷 期:2016年第46卷第1期

页      码:66-75页

摘      要:用电信息大数据上的OLAP查询涉及数据量大,具有多表连接操作频繁、SQL结构复杂等特点,传统关系型数据库面对该类应用,表现出可扩展性弱、数据写入吞吐量低与查询效率低等问题.为此设计了一套基于Spark/Shark的电力大数据OLAP分析系统,该系统采用分布式文件系统HDFS保存电力用电信息采集系统的大数据,通过Shark进行前端SQL解析,Spark进行查询计算;然而,原生Shark只支持粗粒度分区,不支持细粒度的索引技术,难以高效地过滤无关数据,影响了查询性能.为克服这一不足,该系统设计了一种基于前缀树的细粒度索引结构TrieIndex,并通过数据重组技术优化了数据在HDFS的分布,提升了Shark的数据过滤能力以及用电信息大数据OLAP分析的性能.真实用电信息采集系统数据与查询的实验结果表明,该系统比关系型数据库的写入速度提升了12倍,比原生Shark的查询效率提升了10倍以上.

主 题 词:Spark OLAP 电力大数据 索引 前缀树 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0802[工学-机械学] 0835[0835] 0811[工学-水利类] 0801[工学-力学类] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.0253-2778.2016.01.009

馆 藏 号:203187365...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分