看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于关键词过滤与结构化输出的网络爬虫系统设 收藏
基于关键词过滤与结构化输出的网络爬虫系统设

基于关键词过滤与结构化输出的网络爬虫系统设

作     者:金鲁峰 邰剑秋 张旭 

作者机构:新华社技术局 

出 版 物:《中国传媒科技》 (Media Science and Technology of China)

年 卷 期:2012年第4期

页      码:54-56页

摘      要:通过对开源网络爬虫Heritrix的系统构架进行改进,设计基于关键词过滤的主题网络爬虫,并提供一种配置手段利用HTMLParser技术对抽取内容进行结构化分解。实验结果表明,这种对Heritrix改进从而实现的网络爬虫,能够有效地按关键词过滤信息内容,并对信息主体进行了结构化存储。

主 题 词:网络爬虫 系统构架 结构化 关键词 过滤 信息内容 信息主体 

学科分类:1205[管理学-图书情报与档案管理类] 12[管理学] 120502[120502] 

D O I:10.3969/j.issn.1671-0134.2012.04.020

馆 藏 号:203401803...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分