看过本文的还看了

相关文献

该作者的其他文献

文献详情 >分布式计算视域的网络爬虫技术研究 收藏
分布式计算视域的网络爬虫技术研究

分布式计算视域的网络爬虫技术研究

作     者:吴宇鹏 WU Yupeng

作者机构:福州墨尔本理工职业学院福建福州350000 

出 版 物:《信息与电脑》 (Information & Computer)

年 卷 期:2021年第33卷第19期

页      码:87-89页

摘      要:传统的单机网络爬虫技术滞后于海量网页数据的应用场景,存在诸多的缺陷,但Hadoop、Spark等大数据分布式技术可以高效地存储和计算海量网络信息资源。因此,本文设计和应用一种基于Hadoop的分布式网络爬虫系统,进行系统架构设计和工作流程设计。该系统基于模块化设计的理念和方法,在分布式网络爬虫关键技术的依托下,进行分布式网络爬虫技术的功能模块设计,体现其可扩展、高可用性的特点,能较好地适用于海量网页信息资源的应用场景。

主 题 词:分布式计算 网络爬虫 Hadoop 

学科分类:08[工学] 080402[080402] 0804[工学-材料学] 

D O I:10.3969/j.issn.1003-9767.2021.19.025

馆 藏 号:203106534...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分