看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于搜索改进的KNN文本分类算法 收藏
基于搜索改进的KNN文本分类算法

基于搜索改进的KNN文本分类算法

作     者:殷亚博 杨文忠 杨慧婷 许超英 YIN Ya-bo;YANG Wen-zhong;YANG Hui-ting;XU Chao-ying

作者机构:新疆大学信息科学与工程学院新疆乌鲁木齐830046 新疆大学软件学院新疆乌鲁木齐830046 

基  金:国家973重点基础研究发展计划基金项目(2014CB340500) 国家自然科学基金项目(U1603115 61262087) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2018年第39卷第9期

页      码:2923-2928页

摘      要:为解决基于TF-IDF的KNN算法在文本分类时没有考虑文本特征值的多峰分布和文本相似度的计算量导致分类性能差的问题,提出一种基于搜索改进的KNN文本分类算法SIKNN(KNN text classification algorithm based on search improvement)。计算待测样本与聚类后每个类别中样本的平均相似度;当很容易就确定待测样本所属类别时,就停止该待测样本与其它类别中样本相似度的比较,缩小文本相似度计算的搜索空间,提高文本分类的速度。该算法在数据集20-Newsgroups上分别与传统的KNN算法和改进的KNN算法做对比实验,实验结果表明,该算法能够明显提高KNN算法的分类性能和分类速度。

主 题 词:K最近邻 文本分类 相似度 多峰分布 聚类 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2018.09.039

馆 藏 号:203369084...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分