看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于改进TFIDF算法的文本特征选择和聚类分析 收藏
基于改进TFIDF算法的文本特征选择和聚类分析

基于改进TFIDF算法的文本特征选择和聚类分析

作     者:赵军愉 柴小亮 李士林 徐松晓 王强 ZHAO Junyu;CHAI Xiaoliang;LI Shilin;XU Songxiao;WANG Qiang

作者机构:国网河北省电力有限公司保定供电分公司河北石家庄050021 国网河北省电力有限公司河北石家庄050021 

出 版 物:《微型电脑应用》 (Microcomputer Applications)

年 卷 期:2023年第39卷第10期

页      码:181-183,187页

摘      要:为了提高大量文本数据的特征选择能力,采用全覆盖粒计算方法对特征选择算法的数据高维性与稀疏性进行分析。针对TFIDF算法存在的缺陷,设计了一种经过改进后的TFIDF_SP算法,以区分文档内处于不同部位的特征词重要性,并根据不同特征选择方法对比结果判断算法有效性。研究结果表明,采用bLDA主题模型提取细主题粒度的时候也无法获得理想聚类效果,此时会对相同主题特征词造成弱化,将其判断为不同主题类型的特征词。在γ取值等于0.8时可以获得最优聚类效果,此时改进TFIDF算法能促进权重的进一步提升。所提出的改进TFIDF算法可以获得比TFIDF和bLDA主题模型更好的结果结合高1.62%的聚类准确率,表明当特征词方式词性与位置变化时会引起文档表达效果的显著影响。

主 题 词:文本特征选择 改进TFIDF算法 聚类效果 主题模型 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1007-757X.2023.10.046

馆 藏 号:203124169...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分