看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Heritrix的面向电子商务网站增量爬虫研究 收藏
基于Heritrix的面向电子商务网站增量爬虫研究

基于Heritrix的面向电子商务网站增量爬虫研究

作     者:杨颂 欧阳柳波 

作者机构:湖南大学软件学院湖南长沙410082 

出 版 物:《软件导刊》 (Software Guide)

年 卷 期:2010年第9卷第7期

页      码:38-39页

摘      要:针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对电子商务网站的抓取实验,表明该增量爬行策略的设计能够有效提取电子商务网站上的商品信息,并实现了增量抓取。

主 题 词:Heritrix 增量抓取 爬行策略 电子商务 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

馆 藏 号:203434166...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分