看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于万有引力模型的关键词自动抽取方法 收藏
基于万有引力模型的关键词自动抽取方法

基于万有引力模型的关键词自动抽取方法

作     者:李欢 吕学强 李宝安 徐丽萍 LI Huan;LYU Xue-qiang;LI Bao-an;XU Li-ping

作者机构:北京信息科技大学网络文化与数字传播北京市重点实验室北京100101 北京城市系统工程研究中心北京100089 

基  金:国家自然科学基金项目(61671070) 国家社会科学基金重大基金项目(15ZDB017) 国家语委重大课题基金项目(ZDA125-26) 北京成像技术高精尖创新中心基金项目(BAICIT-2016003) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2019年第40卷第4期

页      码:1091-1098页

摘      要:为解决传统万有引力模型因词语质量、词间距离度量不足导致关键词效果较差的问题,分别从词语质量表示和距离计算两方面对传统万有引力模型进行改进。提出基于词频-文档分布熵的方法构建通用词表,过滤候选词后,综合位置、词性、词长特征改进TF-IDF方法,计算词语外部重要性;构建共现网络图,通过计算词语关联度衡量单词内部重要性,融合内部重要性和外部重要性计算词语质量并赋予图节点差异化初始权重;在语义距离的基础上引入依存句法距离,计算词间引力作为边的权重,多次迭代后排序输出TopK个关键词。实验结果表明,该方法在3GPP技术规范和公开的SemEval2010、DUC2001数据集上较传统方法取得了更好的效果,验证了方法的有效性和通用性。

主 题 词:万有引力模型 词频-文档分布熵 关键词抽取 词语关联度 依存句法距离 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2019.04.031

馆 藏 号:203607200...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分