文献详情 >面向主题爬取的多粒度URLs优先级计算方法收藏

面向主题爬取的多粒度URLs优先级计算方法

作者：陈竹敏马军韩晓晖雷景生 CHEN Zhumin;MA Jun;HAN Xiaohui;LEI Jingsheng

作者机构：山东大学计算机科学与技术学院山东济南250101 海南大学信息科学技术学院海南海口570228

基　　金：高等学校博士学科点专项科研基金项目(20070422107) 山东省科技攻关项目(2007GG10001002) 海南省自然科学基金项目(80546)

出版物：《中文信息学报》 (Journal of Chinese Information Processing)

年卷期：2009年第23卷第3期

页码：31-38页

摘要：垂直检索系统中主题爬虫的性能对整个系统至关重要。在设计主题爬虫时需要解决两个问题:一是计算当前页面与给定主题的相关度,二是计算待爬取URLs的访问优先级。对第一个问题,给出利用页面的主题文本块和相关链接块的相关度计算方法;对第二个问题,给出基于主题上下文和四种不同的粒度(即站点级、页面级、块级和链接级)的优先级计算方法。在此基础上,提出基于上述方法的主题爬取算法。实验证明,新算法在不增加时间复杂度的前提下,在查准率和信息量总和方面明显优于其他三种经典的爬取算法。

主题词：计算机应用中文信息处理主题爬取优先级计算网页分块相关度计算

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

核心收录：

D　O　I：10.3969/j.issn.1003-0077.2009.03.005

馆藏号：203110215...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

面向主题爬取的多粒度URLs优先级计算方法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

面向主题爬取的多粒度URLs优先级计算方法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：