看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Hadoop平台的分布式重删存储系统 收藏
基于Hadoop平台的分布式重删存储系统

基于Hadoop平台的分布式重删存储系统

作     者:刘青 付印金 倪桂强 梅建民 LIU Qing;FU Yinjin;NI Guiqiang;MEI Jianmin

作者机构:解放军理工大学指挥信息系统学院南京210007 

基  金:国家863计划项目(2012AA01A509 2012AA01A510) 国家自然科学基金资助项目(61402518) 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2016年第36卷第2期

页      码:330-335页

摘      要:针对数据中心存在大量数据冗余的问题,特别是备份数据造成的存储容量浪费,提出一种基于Hadoop平台的分布式重复数据删除解决方案。该方案通过检测并消除特定数据集内的冗余数据,来显著降低数据存储容量,优化存储空间利用率。利用Hadoop大数据处理平台下的分布式文件系统(HDFS)和非关系型数据库HBase两种数据管理模式,设计并实现一种可扩展分布式重删存储系统。其中,Map Reduce并行编程框架实现分布式并行重删处理,HDFS负责重删后的数据存储,在HBase数据库中构建索引表,实现高效数据块索引查询。最后,利用虚拟机镜像文件数据集对系统进行了测试,基于Hadoop平台的分布式重删系统能在保证高重删率的同时,具有高吞吐率和良好的可扩展性。

主 题 词:重复数据删除 分布式存储 Hadoop HBase Hadoop分布式文件系统 

学科分类:0839[0839] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.11772/j.issn.1001-9081.2016.02.0330

馆 藏 号:203243789...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分