看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种K-means改进算法的并行化实现与应用 收藏
一种K-means改进算法的并行化实现与应用

一种K-means改进算法的并行化实现与应用

作     者:李晓瑜 俞丽颖 雷航 唐雪飞 LI Xiao-yu;YU Li-ying;LEI Hang;TANG Xue-fei

作者机构:电子科技大学信息与软件工程学院成都610054 成都康赛信息技术有限公司成都610054 

基  金:国家科技支撑计划(2012BAH87F03) 中央高校基本科研业务费(ZYGX2014J065) 

出 版 物:《电子科技大学学报》 (Journal of University of Electronic Science and Technology of China)

年 卷 期:2017年第46卷第1期

页      码:61-68页

摘      要:随着数据的爆炸式增长,聚类研究作为大数据的核心问题之一,正面临计算复杂度高和计算能力不足等诸多问题。提出了一种基于Hadoop的分布式改进K-means算法,该算法通过引入Canopy算法初始化K-means算法的聚类中心,克服传统K-means算法因初始中心点的不确定性,易陷入局部最优解的问题。本算法在Canopy(罩盖)中完成K-means聚类,并在Canopy间完成簇的合并,聚类效果稳定,迭代次数少。同时,结合MapReduce分布式计算模型,给出改进后算法的并行化设计方法和策略,进一步通过改进相似度度量方法,将该方法用于文本聚类中。实验结果证明该算法具有良好的准确率和扩展性。

主 题 词:canopy算法 Hadoop MapReduce 并行K—means 文本聚类 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1001-0548.2017.01.010

馆 藏 号:203213514...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分