看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Hadoop云平台下的聚类算法研究 收藏
Hadoop云平台下的聚类算法研究

Hadoop云平台下的聚类算法研究

作     者:谭跃生 杨宝光 王静宇 张亚楠 TAN Yue-sheng;YANG Bao-guang;WANG Jing-yu;ZHANG Ya-nan

作者机构:内蒙古科技大学信息工程学院内蒙古包头014010 内蒙古科技大学网络中心内蒙古包头014010 

基  金:国家自然科学基金项目(61163025) 内蒙古自然科学基金项目(2012MS0912) 内蒙古教育厅高校科研基金项目(njzy12110) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2014年第35卷第5期

页      码:1683-1687页

摘      要:为了解决在面对海量数据时机器学习算法很难在有效时间内完成规定的任务,并且很难有效地处理高维度、海量数据等问题,提出了基于Hadoop分布式平台的谱聚类算法并行化研究。利用MapReduce编程模式,将传统的谱聚类算法进行重新编写;在该平台上用Canopy算法对数据进行预处理,以达到更好的聚类效果。实验结果表明了设计的分布式聚类算法在加速比等方面有良好的性能,并且在数据伸缩率方面效果明显,改进后的算法适合处理海量数据。

主 题 词:海量数据 机器学习 聚类算法 谱聚类 分布式框架 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-7024.2014.05.036

馆 藏 号:203133489...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分