文献详情 >kNN文本分类器类偏斜问题的一种处理对策收藏

kNN文本分类器类偏斜问题的一种处理对策

作者：郝秀兰陶晓鹏徐和祥胡运发 Hao Xiulan;Tao Xiaopeng;Xu Hexiang;Hu Yunfa

作者机构：复旦大学计算机与信息技术系上海200433 上海远程教育集团上海200092

出版物：《计算机研究与发展》 (Journal of Computer Research and Development)

年卷期：2009年第46卷第1期

页码：52-61页

摘要：类偏斜问题(class i mbalance problem)是数据挖掘领域的常见问题之一,人们提出了各种策略来处理这个问题.当训练样本存在类偏斜问题时,kNN分类器会将小类中的样本错分到大类,导致分类的宏F1指标下降.针对kNN存在的这个缺陷,提出了文本训练集的临界点(critical point,CP)的概念并对其性质进行了探讨,给出了求CP,CP的下近似值LA、上近似值UA的算法.之后,根据LA或UA及训练样本数对传统的kNN决策函数进行修改,这就是自适应的加权kNN文本分类.为了验证自适应的加权kNN文本分类的有效性,设计了2组实验进行对比:一组为不同的收缩因子间进行对比,可看做是与Tan的工作进行对比,同时用来证实在LA或UA上分类器的宏F1较好;另一组则是与随机重取样进行实验对比,其中,传统kNN方法作为对比的基线.实验表明,所提的自适应加权kNN文本分类优于随机重取样,使得宏F1指标明显上升.该方法有点类似于代价相关学习.

主题词：文本分类 kNN 类偏斜文本训练集的临界点权重调节随机重取样

学科分类：0810[工学-土木类] 0808[工学-自动化类] 0839[0839] 081203[081203] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类]

核心收录：

馆藏号：203294742...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

kNN文本分类器类偏斜问题的一种处理对策

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

kNN文本分类器类偏斜问题的一种处理对策

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：