看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于数据分布的不平衡数据过采样方法 收藏
一种基于数据分布的不平衡数据过采样方法

一种基于数据分布的不平衡数据过采样方法

作     者:陈丽萍 王洪海 何舒平 CHEN Liping;WANG Honghai;HE Shuping

作者机构:巢湖学院计算机与人工智能学院安徽巢湖238024 安徽大学电气工程与自动化学院安徽合肥230601 

基  金:国家自然科学基金面上项目(62073001) 安徽省高校省级自然科学研究项目(KJ2021A1030) 安徽省创新创业领军人才特殊支持计划(T000706) 巢湖学院校级重点科学研究项目(XLZ-202106) 巢湖学院学科建设质量提升工程立项建设项目(kj21gczx03) 

出 版 物:《安徽大学学报(自然科学版)》 (Journal of Anhui University(Natural Science Edition))

年 卷 期:2024年第48卷第5期

页      码:26-36页

摘      要:针对现有不平衡数据过采样方法生成重叠样本、潜在价值不高样本以及过拟合等问题,提出了一种基于数据分布的过采样方法.该方法首先将少数类样本划分成不同子簇,根据样本的空间分布位置识别噪声样本和少数类边界样本,并删除噪声样本;进而将对分类边界决策影响大的少数类边界样本作为种子样本,并结合种子样本所在子簇的稀疏因子及其识别的难易程度确定采样权重;最后在种子样本所在的子簇中生成新样本.为了验证所设计采样方法的有效性,分别使用AdaBoost(adaptive boosting)和SVM(support vector machine)算法对12个数据集进行分类实验,结果表明,与传统的过采样算法相比,所设计的过采样方法在保证了整体分类性能下,提高了不平衡数据中对少数类的分类效果.

主 题 词:不平衡数据 数据分布 过采样 稀疏因子 重叠样本 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-2162.2024.05.005

馆 藏 号:203144106...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分