看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向主题爬取的多粒度URLs优先级计算方法 收藏
面向主题爬取的多粒度URLs优先级计算方法

面向主题爬取的多粒度URLs优先级计算方法

作     者:陈竹敏 马军 韩晓晖 雷景生 CHEN Zhumin;MA Jun;HAN Xiaohui;LEI Jingsheng

作者机构:山东大学计算机科学与技术学院山东济南250101 海南大学信息科学技术学院海南海口570228 

基  金:高等学校博士学科点专项科研基金项目(20070422107) 山东省科技攻关项目(2007GG10001002) 海南省自然科学基金项目(80546) 

出 版 物:《中文信息学报》 (Journal of Chinese Information Processing)

年 卷 期:2009年第23卷第3期

页      码:31-38页

摘      要:垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。

主 题 词:计算机应用 中文信息处理 主题爬取 优先级计算 网页分块 相关度计算 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1003-0077.2009.03.005

馆 藏 号:203110215...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分