看过本文的还看了

相关文献

该作者的其他文献

文献详情 >DeepWeb可配置聚焦爬虫设计与实现 收藏
DeepWeb可配置聚焦爬虫设计与实现

DeepWeb可配置聚焦爬虫设计与实现

作     者:罗成 程耀东 胡庆宝 李海波 LUO Cheng;CHENG Yao-dong;HU Qing-bao;LI Hai-Bo

作者机构:中国科学院高能物理研究所北京100049 中国科学院大学北京100049 

出 版 物:《核电子学与探测技术》 (Nuclear Electronics & Detection Technology)

年 卷 期:2014年第34卷第3期

页      码:353-358页

摘      要:大数据时代如何精确而有效地抓取用户所需要的数据成为了一个至关重要的问题,提出一种可配置的聚焦网络爬虫框架,基于配置文件的设置,构建一个数据采集精确、可控性强的聚焦网络爬虫。在此基础上改进聚焦爬虫工作流程,实现Deep Web表单自动提交以及Deep Web数据抓取。实验通过高能物理研究所网站与手机腾讯微博的数据爬取以及爬虫在高能物理研究所大数据平台上的实际运行效果说明了爬虫设计的有效性与实用性。

主 题 词:聚焦爬虫 Deep Web 大数据 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 0808[工学-自动化类] 0809[工学-计算机类] 08[工学] 0804[工学-材料学] 0827[工学-食品科学与工程类] 0703[理学-化学类] 081201[081201] 1009[医学-法医学类] 0702[理学-物理学类] 0812[工学-测绘类] 

D O I:10.3969/j.issn.0258-0934.2014.03.019

馆 藏 号:203335467...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分