看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Nutch的专题网页资源采集服务系统的设计与实现 收藏
基于Nutch的专题网页资源采集服务系统的设计与实现

基于Nutch的专题网页资源采集服务系统的设计与实现

作     者:常智荣 马自卫 李高虎 

作者机构:北京邮电大学计算机学院北京100876 北京邮电大学图书馆北京100876 北京邮电大学资产经营有限公司北京100876 

出 版 物:《现代图书情报技术》 (New Technology of Library and Information Service)

年 卷 期:2010年第3期

页      码:19-26页

摘      要:在数字图书馆系统集成应用的框架下,提出基于Nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。

主 题 词:Nutch 网页资源采集 中文分词插件 Webservice 集成服务 

学科分类:08[工学] 080402[080402] 0804[工学-材料学] 

馆 藏 号:203148726...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分