看过本文的还看了

相关文献

该作者的其他文献

文献详情 >综合词位置和语义信息的专利文本相似度计算 收藏
综合词位置和语义信息的专利文本相似度计算

综合词位置和语义信息的专利文本相似度计算

作     者:夏冰 李宝安 吕学强 XIA Bing;LI Bao-an;LYU Xue-qiang

作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室北京100101 

基  金:国家自然科学基金项目(61671070) 北京成像技术高精尖创新中心基金项目(BAICIT-2016003) 国家语委重大课题基金项目(ZDA125-26 ZDI135-53) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2018年第39卷第10期

页      码:3087-3091页

摘      要:为解决传统文本相似度计算方法没有充分考虑专利文本结构特殊性以及计算文本相似度过程中往往忽略词汇间语义信息的问题,在传统方法的基础上,考虑词性以及专利文本的结构特征,将IPC分类号、标题、摘要、权利要求书作为主要研究对象,词在不同位置出现分别赋予不同的权重,通过word2vec将词表示成词向量的形式,通过词汇跟词汇之间的语义信息改进余弦相似度公式。实验结果表明,提出方法相比于传统文本相似度计算方法准确率和召回率有所提高,验证了其有效性。

主 题 词:文本相似度 专利文本结构 向量空间模型 词向量 余弦相似度 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2018.10.016

馆 藏 号:203384602...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分