看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于概念背景图的主题爬虫设计与实现 收藏
基于概念背景图的主题爬虫设计与实现

基于概念背景图的主题爬虫设计与实现

作     者:关卫国 骆永成 GUAN Wei-guo;LUO Yong-cheng

作者机构:东华大学计算机科学与技术学院上海201620 

基  金:中央高校基本科研业务费专项基金项目(2232013D3) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2016年第37卷第10期

页      码:2679-2684页

摘      要:为充分利用爬行主题与待访问页面之间的语义关系,提高主题爬虫的整体性能,在研究概念背景图(CCG)主题爬行算法的基础上,提出改进的CCG主题爬行算法。利用HITS算法选取高质量的主题背景知识,根据形式概念分析理论构建概念格模型,将概念格生成CCG用以存储用户查询意向;利用CCG综合父网页、锚文本、链接上下文以及URL自身预测链接主题相关度,过滤不相关页面。实验结果表明,改进的爬行算法有效提高了网页抓取的精度和召回率,具有较强的可行性。

主 题 词:主题爬虫 形式概念分析 概念格 概念背景图 链接预测 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.16208/j.issn1000-7024.2016.10.019

馆 藏 号:203194455...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分