看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Hive的空气质量大数据查询优化方法 收藏
基于Hive的空气质量大数据查询优化方法

基于Hive的空气质量大数据查询优化方法

作     者:彭贝 刘黎志 杨敏 张晨跃 PENG Bei;LIU Lizhi;YANG Min;ZHANG Chenyue

作者机构:智能机器人湖北省重点实验室(武汉工程大学)湖北武汉430205 武汉工程大学计算机科学与工程学院湖北武汉430205 

基  金:武汉工程大学第十一届研究生教育创新基金(CX2019242) 

出 版 物:《武汉工程大学学报》 (Journal of Wuhan Institute of Technology)

年 卷 期:2020年第42卷第4期

页      码:467-472页

摘      要:为了提高对环境空气质量监测系统中省级环境监测中心站里已汇集的海量监测数据的统计和分析效率,提出了一种基于Spark集群在Hive上进行多维数据分区的查询优化方法。以湖北省环境监测中心站中的空气质量监测数据为研究对象,将数据转移到Spark集群利用Spark SQL连接Hive并进行分区存储。设计了12种查询,查询4个数据集,通过与采用传统查询方法的实验对比得出结论。实验结果表明:基于Hive的分区优化方法对空气质量大数据的查询时间有47%到96%的优化,而随着查询的复杂程度和数据量的增加,该方法的优化效果越明显。

主 题 词:Spark Hive 空气质量 大数据 查询优化 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.19843/j.cnki.CN42-1779/TQ.202003009

馆 藏 号:203959908...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分