看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种Deep Web爬虫的设计与实现 收藏
一种Deep Web爬虫的设计与实现

一种Deep Web爬虫的设计与实现

作     者:荣光 张化祥 RONG Guang;ZHANG Hua-xiang

作者机构:山东师范大学信息科学与工程学院山东济南250014 

出 版 物:《计算机与现代化》 (Computer and Modernization)

年 卷 期:2009年第3期

页      码:31-34页

摘      要:随着World Wide Web的快速发展,Deep Web中蕴含了越来越多的可供访问的信息。这些信息可以通过网页上的表单来获取,它们是由Deep Web后台数据库动态产生的。传统的Web爬虫仅能通过跟踪超链接检索普通的SurfaceWeb页面,由于没有直接指向Deep Web页面的静态链接,所以当前大多数搜索引擎不能发现和索引这些页面。然而,与Surface Web相比,Deep Web中所包含的信息的质量更高,对我们更有价值。本文提出了一种利用HtmlUnit框架设计Deep Web爬虫的方法。它能够集成多个领域站点,通过分析查询表单从后台数据库中检索相关信息。实验结果表明此方法是有效的。

主 题 词:Deep Web Web爬虫 表单 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1006-2475.2009.03.009

馆 藏 号:203132809...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分