看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于Spark的高效增量频繁模式挖掘算法 收藏
一种基于Spark的高效增量频繁模式挖掘算法

一种基于Spark的高效增量频繁模式挖掘算法

作     者:荀亚玲 孙娇娇 毕慧敏 XUN Ya-ling;SUN Jiao-jiao;BI Hui-min

作者机构:太原科技大学计算机科学与技术学院太原030024 

基  金:国家青年科学基金(61602335) 山西省自然科学基金(201901D211302) 太原科技大学博士科研启动基金(20172017) 

出 版 物:《太原科技大学学报》 (Journal of Taiyuan University of Science and Technology)

年 卷 期:2020年第41卷第6期

页      码:440-448页

摘      要:大规模且快速增长的数据集处理给频繁项集挖掘(FIM)带来新的挑战。尽管现有一些方法具有出色的可伸缩性,但不能充分利用了原始数据集的计算结果,且给分布式数据集处理带来了过多的通信开销。针对该问题问题,基于Spark平台提出一种高效的并行增量FIM算法(FCFPIM).FCFPIM结合完全压缩频繁模式树(FCFP-Tree)结构实现增量频繁模式的有效挖掘,当存在数据更新时,无需再重新遍历和挖掘原始数据集,充分利用了原始数据集的挖掘结果;并设计了有效的RDD转换策略以实现频繁模式的有效并行挖掘;另外,为进一步提高并行挖掘效率,引入了相关性分组策略来平衡集群计算节点之间的负载。大量的实验结果表明,FCFPIM可以很好地扩展并有效地处理大规模动态数据集。

主 题 词:频繁模式挖掘 增量数据挖掘 Spark 并行计算 负载均衡 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1673-2057.2020.06.004

馆 藏 号:203987102...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分