看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于云平台的分布式高性能网络爬虫的研究与设计 收藏
基于云平台的分布式高性能网络爬虫的研究与设计

基于云平台的分布式高性能网络爬虫的研究与设计

作     者:石恩名 肖晓军 卢宇 SHI Enming;XIAO Xiaojun;LU Yu

作者机构:广州优亿信息科技有限公司广东广州510630 

出 版 物:《电信科学》 (Telecommunications Science)

年 卷 期:2017年第33卷第8期

页      码:180-186页

摘      要:随着大数据时代的到来,数据成为最宝贵的资源,而网络爬虫技术作为外部数据采集的重要手段,已然成为数据分析的标配。介绍了一种高性能、灵活和便捷的基于云平台的爬虫架构设计和实现。从爬虫的整体架构、分布式设计以及各模块的设计等角度进行了详细的阐述。爬虫各模块用Docker封装,Kubernetes做集群的资源调度和管理,在性能优化上采用了MD5去重树算法、DNS优化和异步I/O等多种策略组合的形式。实验表明,对比未优化的方案,爬虫在性能上具有较明显的优势。

主 题 词:分布式系统架构 网络爬虫 Docker 高性能 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.11959/j.issn.1O00-0801.2017234

馆 藏 号:203260430...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分