看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于分类关键词词频模型的地缘政治主题爬虫设计 收藏
基于分类关键词词频模型的地缘政治主题爬虫设计

基于分类关键词词频模型的地缘政治主题爬虫设计

作     者:魏勇 胡丹露 郝晨光 欧小平 WEI Yong;HU Danlu;HAO Chenguang;OU Xiaoping

作者机构:信息工程大学地理空间信息学院郑州450052 四川省应急测绘与防灾减灾工程技术研究中心成都610041 中华测绘技术服务公司北京100088 

基  金:四川省应急测绘与防灾减灾工程技术研究中心开放基金资助项目(K2015B014) 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2016年第42卷第2期

页      码:45-50页

摘      要:针对词频-逆文档频率模型应用于主题爬虫时存在的非结构化问题,设计基于分类关键词词频(CKTF)模型的主题爬虫。利用网页文档结构特征和主题词语的分布信息将网页映射为五维向量,根据维基百科中文语料库和搜狗全网新闻数据语料库选择关键词并计算其与地缘政治主题的相关度,使用支持向量机实现网页向量的学习和分类。实验结果表明,与传统主题爬虫相比,该主题爬虫能够挖掘地缘政治主题中的丰富内容,有效衡量网页与主题的相关度,具有较高的爬准率和稳定性。

主 题 词:主题爬虫 分类关键词词频模型 词向量 支持向量机 相关度 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-3428.2016.02.008

馆 藏 号:203136099...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分