看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于样本学习复杂度的不平衡数据过采样方法 收藏
一种基于样本学习复杂度的不平衡数据过采样方法

一种基于样本学习复杂度的不平衡数据过采样方法

作     者:许皓 孙廷凯 XU Hao;SUN Tingkai

作者机构:南京理工大学计算机科学与工程学院南京210094 

出 版 物:《计算机与数字工程》 (Computer & Digital Engineering)

年 卷 期:2020年第48卷第8期

页      码:1846-1851,1857页

摘      要:在人们的生活中存在大量的不平衡数据,如何识别人们感兴趣的少数类是一个具有挑战性的问题。论文基于ADASYN算法中提出的样本学习复杂度的思想,设计了一种新的过采样方法LDSMOTE。在该方法中,少数类主样本的学习复杂度与该主样本在少数类和多数类样本空间的分布都有关,ADASYN只利用了邻域多数类样本分布信息,而LDSMOTE融合了局部少数类平均距离和局部多数类样本数的信息。不同于ADASYN中复杂度是离散值,论文中的复杂度是连续的值,更能表现不同主样本之间的差异性和复杂度的多样性。分类器使用支持向量机,对KEEL不平衡数据库中的19个数据集进行实验,结果表明,在超过半数的数据集上,LDSMOTE的Recall、G-mean和AUC性能优于SMOTE、Borderline-SMOTE以及ADASYN算法。

主 题 词:过采样 不平衡数据 主样本 学习复杂度 样本分布 

学科分类:081801[081801] 08[工学] 0818[工学-交通运输类] 

D O I:10.3969/j.issn.1672-9722.2020.08.006

馆 藏 号:203979459...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分