看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种Deep Web爬虫爬行策略 收藏
一种Deep Web爬虫爬行策略

一种Deep Web爬虫爬行策略

作     者:刘徽 黄宽娜 余建桥 LIU Hui;HUANG Kuan-na;YU Jian-qiao

作者机构:乐山师范学院数学与信息科学学院四川乐山614004 西南大学计算机与信息科学学院重庆400715 

基  金:四川省教育厅科研基金资助项目(10ZB023) 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2012年第38卷第11期

页      码:284-286页

摘      要:Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提取有前途的链接,将爬行深度限定在3层,从最靠近查询表单中提取链接,且只提取属于这3个层次的链接,从而减少爬虫爬行时间,提高爬虫的准确度,并设计聚焦爬行算法的约束条件。实验结果表明,该策略可以有效地下载Deep Web页面,提高爬行效率。

主 题 词:Deep Web页面 反馈机制 爬行策略 聚焦爬虫 网络数据库 分类器 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1000-3428.2012.11.086

馆 藏 号:203288322...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分