限定检索结果

检索条件"主题词=Nutch"
34 条 记 录,以下是1-10 订阅
视图:
排序:
基于nutch的专题网页资源采集服务系统的设计与实现
收藏 引用
《现代图书情报技术》2010年 第3期 19-26页
作者:常智荣 马自卫 李高虎北京邮电大学计算机学院北京100876 北京邮电大学图书馆北京100876 北京邮电大学资产经营有限公司北京100876 
在数字图书馆系统集成应用的框架下,提出基于nutch的专题网页资源采集服务系统设计方案。该方案引入信息过滤模块、基于计算机通信领域专业词典的中文分词模块、GUI信息定制模块、词典和关键词管理模块等,保证采集和获取过程中资源的专...
来源:详细信息评论
一种基于nutch的网页聚类系统的设计与实现
收藏 引用
《计算机工程与应用》2011年 第5期47卷 118-122页
作者:阳小兰 钱程 赵海廷武汉科技大学中南分校信息工程学院武汉430223 
设计了一种在中英文环境下、能够对nutch的搜索结果进行聚类处理的搜索结果聚类系统,该系统基于k-means算法和后缀树聚类算法,是一个由nutch搜索引擎、文本分词、TF-IDF权重计算以及文本聚类等模块构成的搜索引擎结果文档聚类系统,并通...
来源:详细信息评论
基于nutch的图情博客搜索引擎的设计与实现
收藏 引用
《情报科学》2012年 第4期30卷 486-491页
作者:赵蓉英 陈必坤武汉大学信息资源研究中心湖北武汉430072 武汉大学中国科学评价研究中心湖北武汉430072 
针对目前主题搜索引擎检索结果的主题相关度不能满足专业用户需求的问题,以图情博客为切入点并以开源搜索引擎nutch为技术框架尝试构建图情博客搜索引擎,为以上问题提供解决方案。
来源:详细信息评论
nutch的插件机制分析
收藏 引用
《广西师范大学学报(自然科学版)》2010年 第1期28卷 105-108页
作者:夏天中国人民大学信息资源管理学院数据工程与知识工程教育部重点实验室北京100872 
论述nutch插件机制的设计目标,分析归纳nutch轻量级插件体系结构所包括的3组基本概念:微内核、扩展点和扩展;插件、插件清单和插件清单描述器;插件工厂和插件清单解析器。总结nutch插件的处理流程和概念与实际文件之间的对应关系。对Nu...
来源:详细信息评论
基于nutch的节能减排垂直搜索引擎设计与实现
收藏 引用
《计算机工程与设计》2016年 第9期37卷 2565-2570页
作者:袁志祥 张飞 鲍威 孙国华 刘明安徽工业大学计算机学院安徽马鞍山243002 中国标准化研究院资源与环境分院北京100191 
为提高搜索引擎检索节能减排领域信息的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用nutch开源框架设计实现节能减排垂直搜索引擎。采用网页模板技术对网页信息进行提取,利用改进的TF-IDF算法进行特征词表示,采用基于...
来源:详细信息评论
Hadoop云平台下nutch中文分词的研究与实现
收藏 引用
《小型微型计算机系统》2013年 第12期34卷 2772-2776页
作者:朱潜 吴辰铌 朱志良 刘洪娟东北大学软件学院沈阳110819 东北大学信息科学与工程学院沈阳110819 
nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问...
来源:详细信息评论
基于nutch农业搜索引擎的研究与设计
收藏 引用
《计算机工程与设计》2009年 第3期30卷 610-612页
作者:周鹏 吴华瑞 赵春江 杨宝祝 朱华吉首都师范大学信息工程学院北京100037 国家农业信息化工程技术研究中心北京100097 
针对目前通用搜索引擎对专门领域及特定主题信息覆盖率较低,在开源的nutch搜索引擎架构的基础上,通过Hash索引在多语种农业叙词表AGROVOC上进行农业词典的构建,利用已有的空间向量算法进行农业相关度计算,并结合Page-Rank的改进算法对...
来源:详细信息评论
基于nutch的多源社交媒体情报采集系统
收藏 引用
《北京邮电大学学报(社会科学版)》2019年 第5期21卷 85-92页
作者:傅魁 覃桂双武汉理工大学经济学院 
以新闻、论坛、贴吧、微博等互联网社交媒体平台为研究对象,在对各平台进行领域建模、情报采集流程设计以及采集内容解析的基础上,设计了基于网络抓取开源工具nutch的通用采集系统。根据各平台特点,分别将分类排名、分块解析、模拟登录...
来源:详细信息评论
nutch中文分词的设计与实现
收藏 引用
《河北北方学院学报(自然科学版)》2010年 第4期26卷 53-56,62页
作者:张敏 杜华河北北方学院信息科学与工程学院河北张家口075000 
面对与日俱增的中文信息检索需求,nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文...
来源:详细信息评论
基于nutch技术的垂直搜索引擎设计与实现
收藏 引用
《通化师范学院学报》2016年 第4期37卷 4-8页
作者:卜天然安徽商贸职业技术学院安徽芜湖241002 
在研究垂直搜索引擎的设计思想、相关技术的基础上,利用nutch开源框架设计实现了农业环境信息的垂直搜索引擎,支持了对特定信息的检索服务.系统采用了网页模板技术对网页信息进行提取,采用改进的TF-IDF算法提取特征词,利用基于特征词的...
来源:详细信息评论
聚类工具 回到顶部