看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向维吾尔文不平衡数据分类的特征选择方法 收藏
面向维吾尔文不平衡数据分类的特征选择方法

面向维吾尔文不平衡数据分类的特征选择方法

作     者:董瑞 周喜 

作者机构:中国科学院研究生院北京100080 中科院新疆理化技术研究所新疆乌鲁木齐830011 

基  金:新疆维吾尔自治区高技术研究发展基金项目(201012112) 新疆维吾尔自治区电子发展专项基金项目(XJDZZXZJ20109) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2013年第34卷第1期

页      码:349-352页

摘      要:为解决维吾尔文文本分类中不平衡数据集问题,提出了一种改进的卡方特征选择方法。结合维吾尔文的语言特性对文本进行预处理,降低特征空间维度;运用卡方和逆文档频数相结合的方法进行特征选择,进一步降低特征空间维数;使用朴素贝叶斯分类器进行分类。在维吾尔文不平衡语料库上进行的实验表明,提出的特征选择方法在不平衡数据集中要优于卡方和信息增益特征选择方法。

主 题 词:不平衡数据 文本分类 维吾尔文 特征选择 逆文档频数 卡方 信息增益 

学科分类:1305[艺术学-设计学类] 13[艺术学] 08[工学] 081104[081104] 0804[工学-材料学] 081101[081101] 0811[工学-水利类] 

馆 藏 号:203857988...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分