看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于向量空间模型的中文文本相似度的研究 收藏
基于向量空间模型的中文文本相似度的研究

基于向量空间模型的中文文本相似度的研究

作     者:薛苏琴 牛永洁 XUE Su-qin;NIU Yong-jie

作者机构:延安大学数学与计算机学院陕西延安716000 

基  金:陕西省自然科学基础研究计划项目(2013JM8042) 

出 版 物:《电子设计工程》 (Electronic Design Engineering)

年 卷 期:2016年第24卷第10期

页      码:28-31页

摘      要:在文本聚类中需要衡量中文文本之间的相似性。本文首先讨论了文本相似度的概念和常用计算算法,详细介绍了向量空间模型和算法步骤,采用删除去除词表、近义词合并、修改文件长度3中策略对算法进行了改进。最后借助盘古分词组件和搜狗实验室的互联网词库,在Visual Studio 2008环境下使用C#语言对算法进行了实现。使用在CNKI上得到的5个不同领域的500篇学术论文的中文摘要对算法进行了测试,结果表明新算法在误差率方面有较大改善,但运行时间较长。

主 题 词:文本相似度 向量空间模型 分词 信息处理 C# 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.14022/j.cnki.dzsjgc.2016.10.008

馆 藏 号:203597881...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分