面向不平衡数据集融合Canopy和K-means的SMOTE改进算法
作者机构:海军工程大学动力工程学院武汉430033
出 版 物:《科学技术与工程》 (Science Technology and Engineering)
年 卷 期:2020年第20卷第22期
页 码:9069-9074页
摘 要:针对SMOTE算法和随机森林可较好解决不平衡数据集的分类问题但对少数类样本分类效果还有待提高的问题,融合Canopy和K-means两种聚类算法,设计了C-K-SMOTE改进算法。先后利用Canopy算法进行快速近似聚类,再利用K-means算法进行精准聚类,得到精准聚类簇,最后利用SMOTE算法增加少数类样本数量,使数据趋于平衡。选取公开数据集KEEL(knowledge extraction on evolutionary learning)数据库中的不平衡数据集,结合随机森林分类模型进行了实验验证,实验表明C-K-SMOTE算法可有效平衡不平衡数据集。
主 题 词:Canopy算法 K-means算法 SMOTE算法 C-K-SMOTE算法 随机森林 不平衡数据集 分类问题
学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类]
馆 藏 号:203968428...