看过本文的还看了

相关文献

该作者的其他文献

文献详情 >分布式爬虫系统中URL去重的设计与实现 收藏
分布式爬虫系统中URL去重的设计与实现

分布式爬虫系统中URL去重的设计与实现

作     者:陈宇伦 周奎 CHEN Yulun;ZHOU Kui

作者机构:湖北汽车工业学院电气与信息工程学院 

基  金:湖北汽车工业学院大学生创新训练项目:基于Python的分布式爬虫系统的设计与实现(项目编号:SJ201730) 

出 版 物:《现代信息科技》 (Modern Information Technology)

年 卷 期:2019年第3卷第11期

页      码:105-106,110页

摘      要:目前全球URL总数在350亿以上,在满足时效性的前提下,越来越多地选择采用分布式爬虫技术,它可以快速高效地从Web中获取有价值的数据。基于Redis数据库设计一种相关去重协议,实现URL去重,有利于提高分布式系统的稳定性和高效性,以及保持整个系统对URL去重的一致性。

主 题 词:分布式爬虫系统 URL去重 URL去重协议 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

馆 藏 号:203692393...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分