看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于大数据的ETL中的数据清洗方案研究 收藏
基于大数据的ETL中的数据清洗方案研究

基于大数据的ETL中的数据清洗方案研究

作     者:周瀚章 冯广 龚旭辉 曾虎 徐启东 

作者机构:广东工业大学自动化学院广东广州510006 

基  金:国家自然科学基金(61074147) 广东省自然科学基金(S2011010005059) 广东省教育部产学研结合项目(2012B091000171 2011B090400460) 广东省科技计划项目(2012B050600028 2014B010118004 2016A050502060) 广州市花都区科技计划项目(HD14ZD001) 广州市科技计划项目(201604016055) 

出 版 物:《工业控制计算机》 (Industrial Control Computer)

年 卷 期:2018年第31卷第12期

页      码:108-110页

摘      要:ETL,又被称为数据仓库技术,是指数据源经过抽取(Extract)、转换(Transform)、加载(Load)的过程。在运用ETL技术的过程中,会产生一些有着错误属性的数据,特别是在大数据时代的背景下,这种错误数据量往往十分庞大,传统的数据清洗方案效果不甚理想。设计一种基于大数据的ETL的高效数据清洗方案,通过对27组数据的清洗,将数据清洗方案与传统数据清洗方案进行对比,实验结果表明:该数据清洗方案能够有效提高数据清洗的效率,并且保持较高的准确性。

主 题 词:数据清洗 ETL技术 海量数据 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 

馆 藏 号:203424034...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分