限定检索结果

检索条件"主题词=卡方统计"
4 条 记 录,以下是1-10 订阅
视图:
排序:
基于卡方统计检验法对文本特征选择的技术实现
收藏 引用
《电脑知识与技术》2014年 第1X期10卷 7103-7105页
作者:唐勇常州纺织服装职业技术学院江苏常州213164 
该文主要探讨如何从技术上实现基于卡方统计检验的文本特征选择,文中提出采用开源的Lucene索引框架对文本分类语料库进行索引,设计了在特征值计算的过程中如何借助语料库索引快速获取卡方统计检验的相关参数,并使用java多线程技术从整...
来源:详细信息评论
针对低频词进行改进的中文短文本分类
收藏 引用
《计算机应用研究》2022年 第2期39卷 468-473,478页
作者:罗孝波 林佳瑜 梁祖红 王漳广东工业大学计算机学院广州510006 广东工业大学图书馆广州510006 
中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中低频词不能被有效利用的问题,提出一种针对低频词进行数据增强的法。首先,利用受限文本生成模型产生的数据来微调低频词...
来源:详细信息评论
基于词频和信息熵改进的特征选择
收藏 引用
《计算机仿真》2022年 第7期39卷 492-496页
作者:刘辉 张振康 王韩林 晏飞扬重庆邮电大学通信与信息工程学院重庆400065 重庆邮电大学通信新技术应用研究中心重庆400065 重庆信科设计有限公司重庆401121 
针对传统CHI法在选择文本特征时忽略了低频词缺陷和混淆负相关特征的问题,提出一种改进法。通过考虑特征在类内、类间的分布情况,给CHI模型补充词频信息,弥补单纯依靠文档频率的不足;为了排除某个类别的干扰特征,采用信息熵理论从...
来源:详细信息评论
基于WLabeled-LDA模型的文本分类研究
收藏 引用
《长春师范大学学报》2017年 第4期36卷 6-12页
作者:卜天然安徽商贸职业技术学院安徽芜湖241002 
Labeled-LDA模型引入了类别标签信息,较传统的LDA主题模型改进了强制分配主题的问题,但Labeled-LDA模型仍存在一些问题,例如Labeled-LDA在训练主题模型之前没有去除无用词,在训练过程中没有考虑词与各类别的关联度,且Labeled-LDA模型获...
来源:详细信息评论
聚类工具 回到顶部