看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Spark平台的分布式阶段自适应关联规则挖掘算法 收藏
Spark平台的分布式阶段自适应关联规则挖掘算法

Spark平台的分布式阶段自适应关联规则挖掘算法

作     者:石慧 陈恩 SHI Hui;CHEN En

作者机构:汕尾职业技术学院信息工程系广东汕尾516600 华为技术有限公司广东深圳518129 

基  金:全国高等院校计算机基础教育研究会2016年度科研规划纵向课题(2016GHB02005) 广东省高职高专云计算与大数据专业委员会2019年度教育科研课题(GDYJSKT19-02) 

出 版 物:《计算机与现代化》 (Computer and Modernization)

年 卷 期:2019年第12期

页      码:31-38页

摘      要:为满足日益增长的海量数据挖掘需求,迫切需要设计一种能够在多台机器上运行的分布式关联规则挖掘算法。Apriori这种高度迭代算法在Hadoop平台上运行时每次迭代执行大量的磁盘I/O操作,大大影响并限制了算法的运行效率。本文利用Spark对分布式计算内置支持的特点,在Spark平台上设计并实现一种分布式关联规则挖掘算法,称为阶段式自适应挖掘算法(Staged Adaptive Apriori)。算法使用自适应的数据集部分处理的策略对频繁项集进行高效挖掘,在每次迭代前初步评估执行时间,并采用较为合适的方法来减少时间和空间的复杂性,是一种基于数据集性质的自适应关联规则挖掘算法。实验结果表明了算法的有效性。

主 题 词:关联规则挖掘 Apriori算法 MapReduce Spark 

学科分类:08[工学] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1006-2475.2019.12.007

馆 藏 号:203827523...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分