看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向情报获取的主题采集工具设计与实现 收藏
面向情报获取的主题采集工具设计与实现

面向情报获取的主题采集工具设计与实现

作     者:谷俊 翁佳 许鑫 Gu Jun;Weng Jia;Xu Xin

作者机构:上海宝山钢铁股份有限公司 上海理工大学图书馆 华东师范大学商学院信息学系 

基  金:上海市科技发展基金软科学研究项目"大数据环境下基于领域本体的情报处理分析方法研究--以钢铁行业为例"(项目编号:14692107100)研究成果之一 

出 版 物:《图书情报工作》 (Library and Information Service)

年 卷 期:2014年第58卷第20期

页      码:91-99页

摘      要:面向互联网的主题采集是情报获取的重要手段,面对爆发式增长的互联网信息资源,设计并实现一套由采集准备、URL分析及提取、模板学习、正文抽取等几阶段组成的主题采集工具,其中URL分析与提取采用基于链接类型的URL筛选方法,实现正文网页URL的筛选;模板学习和正文抽取部分采用基于DOM树的节点比对方法,完成模板的构建与正文抽取。实验结果表明,本文所提出的主题采集工具采集准确率较高,能够适应目前情报信息采集的需求。

主 题 词:网络爬虫 主题采集 链接筛选 DOM树 

学科分类:08[工学] 080402[080402] 0804[工学-材料学] 

核心收录:

D O I:10.13266/j.issn.0252-3116.2014.20.014

馆 藏 号:203326662...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分