看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于网页分块自定义信息提取的Web信息采集器设计 收藏
基于网页分块自定义信息提取的Web信息采集器设计

基于网页分块自定义信息提取的Web信息采集器设计

作     者:苏炜 李正权 黎有 

作者机构:广东省计算中心 

出 版 物:《广东科技》 (Guangdong Science & Technology)

年 卷 期:2010年第19卷第16期

页      码:41-45页

摘      要:通过分析现有网络信息采集软件的不足,根据网页文本信息的结构和内容特征,提出一种基于网页文本信息或富文本信息的优化提取策略。通过将网页文档表示为DOM标签树的形式,把信息按Web页面的标签进行内容块的分割,结合XPath定位的方式,利用可视化的工具提取网页中有用信息,实现自动定期采集并按自定义表结构存储。

主 题 词:信息采集 信息提取 XPath定位 信息降噪 结构化存储 

学科分类:08[工学] 080402[080402] 0804[工学-材料学] 

D O I:10.3969/j.issn.1006-5423.2010.16.022

馆 藏 号:203125635...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分