看过本文的还看了

相关文献

该作者的其他文献

文献详情 >kNN文本分类器类偏斜问题的一种处理对策 收藏
kNN文本分类器类偏斜问题的一种处理对策

kNN文本分类器类偏斜问题的一种处理对策

作     者:郝秀兰 陶晓鹏 徐和祥 胡运发 Hao Xiulan;Tao Xiaopeng;Xu Hexiang;Hu Yunfa

作者机构:复旦大学计算机与信息技术系上海200433 上海远程教育集团上海200092 

基  金:国家自然科学基金重大项目(60736016)~~ 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2009年第46卷第1期

页      码:52-61页

摘      要:类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.

主 题 词:文本分类 kNN 类偏斜 文本训练集的临界点 权重调节 随机重取样 

学科分类:0810[工学-土木类] 0808[工学-自动化类] 0839[0839] 081203[081203] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

核心收录:

馆 藏 号:203294742...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分