看过本文的还看了

相关文献

该作者的其他文献

文献详情 >分类不平衡对软件缺陷预测模型性能的影响研究 收藏
分类不平衡对软件缺陷预测模型性能的影响研究

分类不平衡对软件缺陷预测模型性能的影响研究

作     者:于巧 姜淑娟 张艳梅 王兴亚 高鹏飞 钱俊彦 YU Qiao;JIANG Shu-Juan;ZHANG Yan-Mei;WANG Xing-Ya;GAO Peng-Fei;QIAN Jun-Yan

作者机构:中国矿业大学计算机科学与技术学院江苏徐州221116 桂林电子科技大学广西可信软件重点实验室广西桂林541004 南京大学计算机软件新技术国家重点实验室南京210023 

基  金:国家自然科学基金(61673384 61502497 61562015) 广西可信软件重点实验室研究课题(kx201530) 南京大学计算机软件新技术国家重点实验室开放课题(KFKT2014B19) 江苏省普通高校研究生科研创新计划项目(KYLX15_1443) 国家级大学生创新项目(201510290001)资助 

出 版 物:《计算机学报》 (Chinese Journal of Computers)

年 卷 期:2018年第41卷第4期

页      码:809-824页

摘      要:分类不平衡是指不同类别间样本数量分布不均衡的现象.在软件缺陷预测中,传统预测模型的性能可能会因数据集分类不平衡而受到影响.为了探究分类不平衡对软件缺陷预测模型性能的影响程度,该文提出一种分类不平衡影响分析方法.首先,设计一种新数据集构造算法,将原不平衡数据集转化为一组不平衡率依次递增的新数据集.然后,选取不同的分类模型作为缺陷预测模型,分别对构造的新数据集进行预测,并采用AUC指标来度量不同预测模型的分类性能.最后,采用变异系数C·V来评价各个预测模型在分类不平衡时的性能稳定程度.在8种典型的预测模型上进行实验验证,结果表明C4.5、RIPPER和SMO这3种预测模型的性能随着不平衡率的增大而下降,而代价敏感学习和集成学习能够有效提高它们在分类不平衡时的性能和性能稳定程度.与上述3种模型相比,逻辑回归、朴素贝叶斯和随机森林等模型的性能更加稳定.

主 题 词:分类不平衡 软件缺陷预测 预测模型 不平衡率 代价敏感学习 集成学习 

学科分类:0810[工学-土木类] 0808[工学-自动化类] 0839[0839] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 081202[081202] 

核心收录:

D O I:10.11897/SP.J.1016.2018.00809

馆 藏 号:203286698...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分