看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Hadoop的分布式网络爬虫技术的设计与实现 收藏
基于Hadoop的分布式网络爬虫技术的设计与实现

基于Hadoop的分布式网络爬虫技术的设计与实现

作     者:岳雨俭 YUE Yu-jian

作者机构:安徽理工大学安徽淮南232001 

出 版 物:《电脑知识与技术(过刊)》 (Computer Knowledge and Technology)

年 卷 期:2015年第21卷第3X期

页      码:36-38页

摘      要:随着互联网行业和信息技术的发展,Google、IBM和Apache等大型公司纷纷投入去发展云计算,其中Apache开发的Hadoop平台是一个对用户极为友好的开源云计算框架。该文就是要基于Hadoop框架去设计和实现分布式网络爬虫技术,以完成大规模数据的采集,其中采用Map/Reduce分布式计算框架和分布式文件系统,来解决单机爬虫效率低、可扩展性差等问题,提高网页数据爬取速度并扩大爬取的规模。

主 题 词:云计算 分布式网络爬虫 Hadoop 

学科分类:08[工学] 081203[081203] 080402[080402] 0804[工学-材料学] 0835[0835] 0812[工学-测绘类] 

D O I:10.14004/j.cnki.ckt.2015.0274

馆 藏 号:203141665...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分