看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于压缩近邻的查重元数据去冗算法设计 收藏
基于压缩近邻的查重元数据去冗算法设计

基于压缩近邻的查重元数据去冗算法设计

作     者:姚文斌 叶鹏迪 李小勇 常静坤 YAO Wen-bin;YE Peng-di;LI Xiao-yong;CHANG Jing-kun

作者机构:北京邮电大学智能通信软件与多媒体北京市重点实验室北京100876 北京邮电大学计算机学院北京100876 中国铁道科学研究院机车车辆研究所北京100081 北京邮电大学可信分布式计算与服务教育部重点实验室北京100876 

基  金:国家自然科学基金资助项目(61370069) 国家高技术研究发展计划("863"计划)基金资助项目(2012AA012600) 中央高校基本科研业务费专项基金资助项目(BUPT2011RCZJ16) 

出 版 物:《通信学报》 (Journal on Communications)

年 卷 期:2015年第36卷第8期

页      码:1-7页

摘      要:随着重复数据删除次数的增加,系统中用于存储指纹索引的清单文件等元数据信息会不断累积,导致不可忽视的存储资源开销。因此,如何在不影响重复数据删除率的基础上,对重复数据删除过程中产生的元数据信息进行压缩,从而减小查重索引,是进一步提高重复数据删除效率和存储资源利用率的重要因素。针对查重元数据中存在大量冗余数据,提出了一种基于压缩近邻的查重元数据去冗算法Dedup2。该算法先利用聚类算法将查重元数据分为若干类,然后利用压缩近邻算法消除查重元数据中相似度较高的数据以获得查重子集,并在该查重子集上利用文件相似性对数据对象进行重复数据删除操作。实验结果表明,Dedup2可以在保持近似的重复数据删除比的基础上,将查重索引大小压缩50%以上。

主 题 词:重复数据删除 查重元数据 近邻压缩规则 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.11959/j.issn.1000-436x.2015226

馆 藏 号:203742160...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分