看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Spark的投影树频繁项集挖掘算法 收藏
基于Spark的投影树频繁项集挖掘算法

基于Spark的投影树频繁项集挖掘算法

作     者:冯兴杰 潘轩 FENG Xing-jie1,2 , PAN Xuan1

作者机构:中国民航大学计算机科学与技术学院天津300300 中国民航大学信息网络中心天津300300 

基  金:国家自然科学基金委员会与中国民用航空局联合基金项目(U1233113) 国家自然科学青年基金项目(61301245 61201414) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2018年第39卷第8期

页      码:2477-2483页

摘      要:通过对Spark并行计算框架以及投影树算法的分析,提出基于Spark的投影树频繁项集挖掘算法(projection tree algorithm based on Spark,PTBS)。为解决重复遍历数据集带来的损耗,改变数据的存储结构;利用广播变量对频繁二项集的产生进行改进,降低运算量,减少集群节点间通信的消耗;将Apriori先验性质添加到候选项集的筛选过程中,减少节点间的通信量。将算法与Spark平台所具备的特殊性能相结合,得到基于Spark的投影树关联规则挖掘算法,实验结果表明,该算法具备良好的可扩展性,适宜于处理大规模数据。

主 题 词:数据挖掘 大数据 Spark大数据框架 投影树 并行化 

学科分类:08[工学] 081202[081202] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2018.08.014

馆 藏 号:203316260...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分