看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于分块和滑窗技术的相似重复记录检测算法研究 收藏
基于分块和滑窗技术的相似重复记录检测算法研究

基于分块和滑窗技术的相似重复记录检测算法研究

作     者:陈亮 杜璐 胡康 Chen Liang;Du Lu;Hu Kang

作者机构:西安工程大学计算机科学学院陕西西安710048 

基  金:陕西省工业攻关资助项目(2014K05-43) 陕西省教育厅专项科研项目(14JK1310) 广东省计算机集成制造重点实验室(CIMSOF2016001) 

出 版 物:《计算机应用与软件》 (Computer Applications and Software)

年 卷 期:2019年第36卷第4期

页      码:262-267页

摘      要:相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。

主 题 词:数据质量 相似重复记录检测 窗口技术 分块技术 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-386x.2019.04.042

馆 藏 号:203622471...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分