看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Web数据清洗及其系统框架研究 收藏
Web数据清洗及其系统框架研究

Web数据清洗及其系统框架研究

作     者:王琛 Wang Chen

作者机构:江苏建筑职业技术学院信息传媒与艺术学院江苏徐州221116 

基  金:江苏建筑职业技术学院科研项目"Web数据集成中数据清洗关键问题研究"(JYA13-05) 

出 版 物:《计算机时代》 (Computer Era)

年 卷 期:2014年第12期

页      码:42-44页

摘      要:数据清洗是提高数据质量的有效手段。分析了从Web上抽取的数据存在的质量问题或错误,针对错误类型,给出属性错误(包括不完整数据和异常数据)和重复与相似重复记录的描述,并提出相应的清洗方法;设计了一个数据清洗系统框架,该框架由数据预处理、数据清洗引擎和质量评估三大部分组成,可以针对不同的错误类型,完成不同的清洗任务。实验表明,该框架具有通用性和可扩展性。

主 题 词:数据质量 数据清洗 属性错误 重复记录 质量评估 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1006-8228.2014.12.013

馆 藏 号:203628167...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分