看过本文的还看了

相关文献

该作者的其他文献

文献详情 >文本特征加权方法TF·IDF的分析与改进 收藏
文本特征加权方法TF·IDF的分析与改进

文本特征加权方法TF·IDF的分析与改进

作     者:林永民 吕震宇 赵爽 朱卫东 LIN Yong-min;L(U) Zheng-yu;ZHAO Shuang;ZHU Wei-dong

作者机构:河北理工大学经济管理学院河北唐山063009 北京交通大学计算机与信息技术学院北京100044 

基  金:国家自然科学基金项目(60673089) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2008年第29卷第11期

页      码:2923-2925,2929页

摘      要:TF·IDF作为一种简单、直观、处理速度快的文本特征加权方法,在文本分类中得到广泛应用。但是这种方法简单地认为文本频数少的单词就重要,文本频数多的单词就不重要,使它不可能很好的反映单词的有用程度,从而导致分类准确率下降。针对TF·IDF方法存在的问题,采用在特征发生的条件下类的后验概率分布来衡量特征对分类的有效性,提出了一种基于熵的特征加权方法TF·Ensu。实验结果表明,这种加权方法具有很好的分类性能。

主 题 词:文本分类 特征选择  特征加权 向量空间模型 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2008.11.035

馆 藏 号:203127073...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分