看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于众包的社交网络数据采集模型设计与实现 收藏
基于众包的社交网络数据采集模型设计与实现

基于众包的社交网络数据采集模型设计与实现

作     者:高梦超 胡庆宝 程耀东 周旭 李海波 杜然 GAO Mengchao;HU Qingbao;CHENG Yaodong;ZHOU Xu;LI Haibo;DU Ran

作者机构:四川大学计算机学院成都610065 中国科学院高能物理研究所计算中心北京100049 中国科学院声学研究所北京100190 

基  金:国家"863"计划基金资助项目"基于媒体大数据的大众信息消费服务平台及应用示范"(SS2014AA012305) 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2015年第41卷第4期

页      码:36-40页

摘      要:社交网络数据信息量大、主题性强,具有巨大的数据挖掘价值,是互联网大数据的重要组成部分。针对传统搜索引擎无法利用关键字检索技术直接索引社交网络平台信息的现状,基于众包模式,采用C/S架构,设计社交网络数据采集模型,包含服务端、客户端、存储系统与主题Deep Web爬虫系统4个模块。通过主题Deep Web爬虫的分布式机器节点自动向服务器请求爬虫任务并上传爬取数据,利用Hadoop分布式文件系统对爬取数据进行快速处理并存储结果数据。实验结果表明,主题Deep Web爬虫系统配置简单,支持功能扩展和目标信息直接获取,数据采集模型具有较快的数据获取速度及较高的信息检索效率。

主 题 词:社交网络 众包模式 分布式计算 信息采集 Web爬虫 Hadoop分布式文件系统 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 08[工学] 081201[081201] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-3428.2015.04.007

馆 藏 号:203108947...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分