看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于本体语义的灾害主题爬虫策略 收藏
一种基于本体语义的灾害主题爬虫策略

一种基于本体语义的灾害主题爬虫策略

作     者:马雷雷 李宏伟 连世伟 梁汝鹏 陈虎 MA Leilei;LI Hongwei;LIAN Shiwei;LIANG Rupeng;CHEN Hu

作者机构:信息工程大学地理空间信息学院郑州450052 四川省应急测绘与防灾减灾工程技术研究中心成都610041 国防信息学院武汉430010 

基  金:国家自然科学基金(41271392 41401463 41571394) 四川省应急测绘与防灾减灾工程技术研究中心开放基金(K2015B014) 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2016年第42卷第11期

页      码:50-56页

摘      要:为高效精确地提取存在于互联网中的灾害主题网页文本信息,引入本体语义,提出一种新的灾害主题爬虫策略。给出本体语义支持的灾害主题爬虫框架和流程,改进本体概念语义相似度计算方法,利用语义相似度计算主题语义向量,通过HTML位置加权获取网页文本特征向量,并进行主题相关度计算。设计URL锚文本主题相关度计算方法,分析URL链接优先度,优化爬行队列。选取地震灾害和气象灾害2个主题进行测试与分析,实验结果表明,该策略能有效提高稳定性和爬准率。

主 题 词:主题爬虫 本体 语义相似度 向量空间模型 相关度计算 锚文本 

学科分类:081603[081603] 081802[081802] 07[理学] 08[工学] 070503[070503] 0818[工学-交通运输类] 0705[理学-地理科学类] 0816[工学-纺织类] 

D O I:10.3969/j.issn.1000-3428.2016.11.009

馆 藏 号:203208540...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分