看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向大规模机群的可扩展OLAP查询技术 收藏
面向大规模机群的可扩展OLAP查询技术

面向大规模机群的可扩展OLAP查询技术

作     者:王会举 覃雄派 王珊 张延松 李芙蓉 WANG Hui-Ju;QIN Xiong-Pai;WANG Shan;ZHANG Yan-Song;LI Fu-Rong

作者机构:数据工程与知识工程教育部重点实验室(中国人民大学)北京1008722 中国人民大学信息学院北京100872 中国人民大学中国调查与数据中心北京100872 

基  金:国家"九七三"重点基础研究发展规划项目基金(2014CB340403) 国家重大科技专项基金(核高基项目2010ZX01042-001-002) 国家自然科学基金(61170013 61272138) 中国人民大学科学研究基金(中央高校基本科研业务费专项资金(10XNI018))资助~~ 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2015年第38卷第1期

页      码:45-58页

摘      要:大数据时代,由中低端硬件组成的大规模机群逐渐成为海量数据处理的主流平台之一.然而传统基于高端硬件平台设计的并行OLAP查询算法并不适应这种由不可靠计算单元组成的大规模并行计算的环境.为改善其在新计算环境下的的扩展性和容错性,该文对传统数据仓库的数据组织模式及处理模式进行改造,提出了全新的无连接雪花模型和TRM执行模型.无连接雪花模型基于层次编码技术,将维表层次等关键信息压缩进事实表,使得事实表可以独立处理数据,从数据模型层保证了数据计算的独立性;TRM执行模型将OLAP查询的处理抽象为Transform、Reduce、Merge 3个操作,使得OLAP查询可被划分为众多可并行执行的独立子任务,从执行层保证了系统的高度可扩展特性.在性能优化方面,该文提出了Scan-index扫描和跳跃式扫描算法,以尽可能地减少I/O访问操作;设计了并行谓词判断、批量谓词判断等优化算法,以加速本地计算速度.实验表明:LaScOLAP原型可以获得较好的扩展性和容错性,其性能比HadoopDB高出一个数量级.

主 题 词:大规模可扩展 OLAP查询 无连接雪花模型 TRM执行模型 跳跃式扫描 Scan-index 大数据 

学科分类:0810[工学-土木类] 0808[工学-自动化类] 0839[0839] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 081202[081202] 

核心收录:

D O I:10.3724/sp.j.1016.2015.00045

馆 藏 号:203294870...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分