看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Larbin的网络爬虫体系结构的研究与改进 收藏
基于Larbin的网络爬虫体系结构的研究与改进

基于Larbin的网络爬虫体系结构的研究与改进

作     者:李跃健 朱程荣 LI Yue-jian;ZHU Cheng-rong

作者机构:同济大学计算机科学与技术系上海201804 

基  金:国家863高技术发展计划项目(2010AA122200) 上海市科委国际合作项目(10510712500) 

出 版 物:《计算机技术与发展》 (Computer Technology and Development)

年 卷 期:2012年第22卷第7期

页      码:147-150,170页

摘      要:Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取。通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在url内存方面的利用率。经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的url占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%,而没采用Bloom filter的冲突概率则达到了10%。

主 题 词:Larbin 爬虫 哈希算法 url去重 布隆过滤器 

学科分类:08[工学] 0839[0839] 081201[081201] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1673-629X.2012.07.040

馆 藏 号:203388358...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分