看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Spark框架结合分布式KNN分类器的网络大数据分类处理方法 收藏
Spark框架结合分布式KNN分类器的网络大数据分类处理方法

Spark框架结合分布式KNN分类器的网络大数据分类处理方法

作     者:曹瑜 王楠 徐志超 Cao Yu;Wang Nan;Xu Zhichao

作者机构:哈尔滨金融学院计算机系哈尔滨150030 吉林财经大学管信学院长春130117 吉林大学计算机学院长春130012 

基  金:国家自然科学基金资助项目(61702213) 吉林省教育厅“十三五”科学技术研究(JJKH20180463KJ) 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2019年第36卷第11期

页      码:3274-3277,3333页

摘      要:针对现有大数据分类方法难以满足大数据应用中时间和储存空间的限制,提出了一种基于Apache Spark框架的大数据并行多标签K最近邻分类器设计方法。为了通过使用其他内存操作来减轻现有MapReduce方案的成本消耗,首先,结合Apache Spark框架的并行机制将训练集划分成若干分区;然后在map阶段找到待预测样本每个分区的K近邻,进一步在reduce阶段根据map阶段的结果确定最终的K近邻;最后并行地对近邻的标签集合进行聚合,通过最大化后验概率输出待预测样本的目标标签集合。在PokerHand等四个大数据分类数据集上进行实验,该方法取得了较低的汉明损失,证明了其有效性。

主 题 词:分类处理 Apache Spark 并行机制 数据挖掘 汉明损失 K最近邻 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.19734/j.issn.1001-3695.2018.05.0296

馆 藏 号:203820569...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分