文献检索-宁波市创意产业特色资源库

基于nutch的专题网页资源采集服务系统的设计与实现: 收藏
分享
引用; 《现代图书情报技术》2010年第3期 19-26页; 作者：常智荣马自卫李高虎北京邮电大学计算机学院北京100876 北京邮电大学图书馆北京100876 北京邮电大学资产经营有限公司北京100876; 在数字图书馆系统集成应用的框架下,提出基于nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专...; 在数字图书馆系统集成应用的框架下,提出基于nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专题性和系统的可管理性以及易用性。重点对文本解析过滤、Plugin插件开发以及搜索结果的层次化自动聚类等相关技术进行深入研究。通过基于Webservice的服务接口,实现其在数字图书馆资源层的集成应用。; 来源：详细信息评论

一种基于nutch的网页聚类系统的设计与实现: 收藏
分享
引用; 《计算机工程与应用》2011年第5期47卷 118-122页; 作者：阳小兰钱程赵海廷武汉科技大学中南分校信息工程学院武汉430223; 设计了一种在中英文环境下、能够对nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通...; 设计了一种在中英文环境下、能够对nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通过实验对k-means算法和后缀树算法进行了对比。; 来源：详细信息评论

基于nutch的图情博客搜索引擎的设计与实现: 收藏
分享
引用; 《情报科学》2012年第4期30卷 486-491页; 作者：赵蓉英陈必坤武汉大学信息资源研究中心湖北武汉430072 武汉大学中国科学评价研究中心湖北武汉430072; 针对目前主题搜索引擎检索结果的主题相关度不能满足专业用户需求的问题,以图情博客为切入点并以开源搜索引擎nutch为技术框架尝试构建图情博客搜索引擎,为以上问题提供解决方案。; 针对目前主题搜索引擎检索结果的主题相关度不能满足专业用户需求的问题,以图情博客为切入点并以开源搜索引擎nutch为技术框架尝试构建图情博客搜索引擎,为以上问题提供解决方案。; 来源：详细信息评论

nutch的插件机制分析: 收藏
分享
引用; 《广西师范大学学报（自然科学版）》2010年第1期28卷 105-108页; 作者：夏天中国人民大学信息资源管理学院数据工程与知识工程教育部重点实验室北京100872; 论述nutch插件机制的设计目标,分析归纳nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结nutch插件的处理流程和概念与实际文件之间的对应关系。对Nu...; 论述nutch插件机制的设计目标,分析归纳nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结nutch插件的处理流程和概念与实际文件之间的对应关系。对nutch插件机制的深入理解,有助于灵活构建基于nutch的新应用。; 来源：详细信息评论

基于nutch的节能减排垂直搜索引擎设计与实现: 收藏
分享
引用; 《计算机工程与设计》2016年第9期37卷 2565-2570页; 作者：袁志祥张飞鲍威孙国华刘明安徽工业大学计算机学院安徽马鞍山243002 中国标准化研究院资源与环境分院北京100191; 为提高搜索引擎检索节能减排领域信息的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用nutch开源框架设计实现节能减排垂直搜索引擎。采用网页模板技术对网页信息进行提取,利用改进的TF-IDF算法进行特征词表示,采用基于...; 为提高搜索引擎检索节能减排领域信息的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用nutch开源框架设计实现节能减排垂直搜索引擎。采用网页模板技术对网页信息进行提取,利用改进的TF-IDF算法进行特征词表示,采用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯分类算法对网页信息进行分类。实验结果表明,该搜索引擎可有效对节能减排的相关信息进行检索。; 来源：详细信息评论

Hadoop云平台下nutch中文分词的研究与实现: 收藏
分享
引用; 《小型微型计算机系统》2013年第12期34卷 2772-2776页; 作者：朱潜吴辰铌朱志良刘洪娟东北大学软件学院沈阳110819 东北大学信息科学与工程学院沈阳110819; nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问...; nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对nutch的分词模块进行改进,首先描述在nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对nutch的理论和应用研究具有一定的意义.; 来源：详细信息评论

基于nutch农业搜索引擎的研究与设计: 收藏
分享
引用; 《计算机工程与设计》2009年第3期30卷 610-612页; 作者：周鹏吴华瑞赵春江杨宝祝朱华吉首都师范大学信息工程学院北京100037 国家农业信息化工程技术研究中心北京100097; 针对目前通用搜索引擎对专门领域及特定主题信息覆盖率较低,在开源的nutch搜索引擎架构的基础上,通过Hash索引在多语种农业叙词表AGROVOC上进行农业词典的构建,利用已有的空间向量算法进行农业相关度计算,并结合Page-Rank的改进算法对...; 针对目前通用搜索引擎对专门领域及特定主题信息覆盖率较低,在开源的nutch搜索引擎架构的基础上,通过Hash索引在多语种农业叙词表AGROVOC上进行农业词典的构建,利用已有的空间向量算法进行农业相关度计算,并结合Page-Rank的改进算法对结果综合排序,搭建了一个面向互联网上农业相关信息资源的搜索引擎。相对于通用搜索引擎来说减少了搜索结果的信息量,提高了搜索速度,同时提高了专业信息搜索的准确率。; 来源：详细信息评论

nutch中文分词的设计与实现: 收藏
分享
引用; 《河北北方学院学报（自然科学版）》2010年第4期26卷 53-56,62页; 作者：张敏杜华河北北方学院信息科学与工程学院河北张家口075000; 面对与日俱增的中文信息检索需求,nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文...; 面对与日俱增的中文信息检索需求,nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.; 来源：详细信息评论

基于nutch的多源社交媒体情报采集系统: 收藏
分享
引用; 《北京邮电大学学报（社会科学版）》2019年第5期21卷 85-92页; 作者：傅魁覃桂双武汉理工大学经济学院; 以新闻、论坛、贴吧、微博等互联网社交媒体平台为研究对象,在对各平台进行领域建模、情报采集流程设计以及采集内容解析的基础上,设计了基于网络抓取开源工具nutch的通用采集系统。根据各平台特点,分别将分类排名、分块解析、模拟登录...; 以新闻、论坛、贴吧、微博等互联网社交媒体平台为研究对象,在对各平台进行领域建模、情报采集流程设计以及采集内容解析的基础上,设计了基于网络抓取开源工具nutch的通用采集系统。根据各平台特点,分别将分类排名、分块解析、模拟登录方法应用于新闻、论坛贴吧、微博的采集工作中,以提高系统的通用性和性价比,实现对多源社交媒体情报的高效采集。; 来源：详细信息评论

基于nutch技术的垂直搜索引擎设计与实现: 收藏
分享
引用; 《通化师范学院学报》2016年第4期37卷 4-8页; 作者：卜天然安徽商贸职业技术学院安徽芜湖241002; 在研究垂直搜索引擎的设计思想、相关技术的基础上,利用nutch开源框架设计实现了农业环境信息的垂直搜索引擎,支持了对特定信息的检索服务.系统采用了网页模板技术对网页信息进行提取,采用改进的TF-IDF算法提取特征词,利用基于特征词的...; 在研究垂直搜索引擎的设计思想、相关技术的基础上,利用nutch开源框架设计实现了农业环境信息的垂直搜索引擎,支持了对特定信息的检索服务.系统采用了网页模板技术对网页信息进行提取,采用改进的TF-IDF算法提取特征词,利用基于特征词的向量空间模型进行主题相关性判定,利用朴素贝叶斯算法对网页信息进行分类.测试结果表明,改进后的nutch具有更高的查询准确率.; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

文献类型

馆藏范围

日期分布

学科分类号

主题

机构

作者

语言

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：