看过本文的还看了

相关文献

该作者的其他文献

文献详情 >针对低频词进行改进的中文短文本分类方法 收藏
针对低频词进行改进的中文短文本分类方法

针对低频词进行改进的中文短文本分类方法

作     者:罗孝波 林佳瑜 梁祖红 王漳 Luo Xiaobo;Lin Jiayu;Liang Zuhong;Wang Zhang

作者机构:广东工业大学计算机学院广州510006 广东工业大学图书馆广州510006 

基  金:国家自然科学基金资助项目(71402033) 广东省图书馆科研课题(GDTK1928) 

出 版 物:《计算机应用研究》 (Application Research of Computers)

年 卷 期:2022年第39卷第2期

页      码:468-473,478页

摘      要:中文短文本分类中存在大量低频词,利用好低频词中的信息能有效提高文本分类效果,针对基于词向量的文本分类研究中低频词不能被有效利用的问题,提出一种针对低频词进行数据增强的方法。首先,利用受限文本生成模型产生的数据来微调低频词的词向量,再利用一种词向量的构造算法将高频词的更新信息迁移到低频词中,使低频词获取更准确且符合训练集分布的词向量表示;其次,引入相似词和实体概念等先验知识来补充上下文信息;最后,利用改进的卡方统计去除明显的噪声词,以及设计词注意力层对每个词进行加权,减少无关噪声对分类的影响。在多个基础分类模型上进行实验,结果表明各基础模型经改进后都有明显提升,体现了提出方法的有效性,同时也说明了短文本分类任务中低频词能改善分类的效果。

主 题 词:短文本 低频词 数据增强 去噪 卡方统计 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.19734/j.issn.1001-3695.2021.08.0385

馆 藏 号:203107255...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分