看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种面向混合属性数据流的基于密度的聚类算法研究 收藏
一种面向混合属性数据流的基于密度的聚类算法研究

一种面向混合属性数据流的基于密度的聚类算法研究

作     者:陈晋音 何辉豪 杨东勇 CHEN Jin-yin;HE Hui-hao;YANG Dong-yong

作者机构:浙江工业大学信息工程学院杭州310023 

基  金:浙江省自然科学基金项目(Y14F020092)资助 宁波市自然科学基金项目(2013A610070)资助 

出 版 物:《小型微型计算机系统》 (Journal of Chinese Computer Systems)

年 卷 期:2016年第37卷第1期

页      码:43-47页

摘      要:混合属性数据流聚类是数据流挖掘中的重要问题.针对现存聚类方法在处理混合属性数据流聚类时存在聚类精度低和实时性差的问题,提出一种基于密度的混合属性数据流聚类算法HDSDen(Heterogeneous Data Stream based on Density Clustering Algorithm),算法由在线聚类/离线优化两部分组成,在线聚类快速完成距离计算与聚类,离线优化实现二次聚类提高聚类精度.针对现存混合型属性计算距离方式精度低的问题,本文设计属性占优分析预先确定混合属性数据流中分类或数值属性占优的,随即选择对应的相似度计算公式,从而保证了混合属性的相似度计算满足属性重要性平衡,降低非占优属性数据对整体数据聚类的影响,在线聚类最终通过给定参数ε和μ确定当前窗口到达的数据点中的核心数据点.离线部分从核心数据点出发将所有密度可达的数据点聚成一个自然类,并将未被聚类的数据点存入暂存区,若暂存区内数据点达到一定数量,将暂存区的数据再聚类优化整体的聚类效果,从而实现了离群点的二次聚类,保证了聚类的精度.最后HDSDen算法对真实数据集进行聚类实验,验证HDSDen算法比现有几种典型数据流聚类方法具有更高的聚类质量,并能给出任意时间的聚类结果,能够有效地处理混合属性数据流聚类问题.

主 题 词:数据流 混合属性 属性占优 数据聚类 密度 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

核心收录:

馆 藏 号:203102844...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分