限定检索结果

检索条件"主题词=heritrix"
29 条 记 录,以下是1-10 订阅
视图:
排序:
基于heritrix的网络学术文献获取研究
收藏 引用
《图书情报工作》2012年 第11期56卷 99-104,108页
作者:白如江 王效岳 亢丽芸山东理工大学科技信息研究所 
通过分析研究网络学术文献的主要来源、常用文件格式及heritrix的工作原理,制定基于heritrix的网络学术文献获取方案,从种子站点选择或抓取任务配置、文件类型和大小过滤以及学术文献判定等方面对整体方案进行具体设计和分析,并搭建实...
来源:详细信息评论
基于heritrix限定爬虫的设计与实现
收藏 引用
《计算机应用与软件》2013年 第4期30卷 33-35,80页
作者:张敏 孙敏大连大学信息工程学院辽宁大连116622 
目前互联网中的网页数量以相当惊人的速度在增长。面对如此多的网页,用户往往只需要特定网站的网页,或者说只需要某一地区的网页,那么通用爬虫就无能为力了。因此,根据通用爬虫存在的不足,阐述了限定爬虫的相关概念以及技术,并基于Herit...
来源:详细信息评论
基于heritrix的主题网络爬虫设计与实现
收藏 引用
《南宁职业技术学院学报》2011年 第1期16卷 97-100页
作者:高伟锋广西大学计算机与电子信息学院广西南宁530004 
通过介绍主题网络爬虫,以及使用Java开发的开源网络爬虫heritrix的系统构架,设计基于遗传算法的主题网络爬虫算法,并使用heritrix构造基于遗传算法的主题网络爬虫。实验结果表明,采用heritrix实现的基于遗传算法的主题网络爬虫,能取得...
来源:详细信息评论
基于heritrix+Solr的农业信息垂直搜索引擎研究与设计
收藏 引用
《广东农业科学》2015年 第5期42卷 139-144页
作者:郭承坤 陈国松 阮怀军 陈英义 屠星月中国农业大学信息与电气工程学院北京100083 农业部农业信息获取技术重点实验室北京100083 山东水利职业学院山东日照276826 山东省农科院科技信息研究所山东济南250100 
随着农业信息化、智能化的不断发展,农业信息量呈现井喷式增长,为广大农业从业者和农业科研人员提供便捷有效的信息检索方法是目前农业搜索引擎亟需解决的问题。为此,本文提出了基于heritrix+Solr的农业信息垂直搜索引擎框架,并设计了...
来源:详细信息评论
基于heritrix的面向电子商务网站增量爬虫研究
收藏 引用
《软件导刊》2010年 第7期9卷 38-39页
作者:杨颂 欧阳柳波湖南大学软件学院湖南长沙410082 
针对电子商务网站的特点,基于heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对...
来源:详细信息评论
基于heritrix与Lucene的地震专业搜索引擎设计
收藏 引用
《地震地磁观测与研究》2016年 第5期37卷 172-178页
作者:孙静 李亚龙 万杰安徽省地震局中国合肥230031 
随着网络科技的发展,用户对搜索引擎提出更高要求,专业搜索引擎应运而生并不断发展壮大。对地震专业搜索引擎进行系统研究,提出一种基于网络爬虫heritrix和开源全文信息检索包Lucene的专业检索解决方案,完成信息资源抓取、镜像文件建立...
来源:详细信息评论
基于heritrix+Lucene的高校图书馆网站全文搜索引擎构建
收藏 引用
《情报探索》2013年 第9期 101-105页
作者:华京生 李萍南京艺术学院图书馆江苏南京210013 
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件heritrix、Lucene和Htmlparser等为基础,构建一个简单的具有基...
来源:详细信息评论
基于heritrix的商品信息搜索的网络爬虫系统的设计
收藏 引用
《电脑编程技巧与维护》2012年 第22期 74-74,81页
作者:袁小洁贵州大学计算机科学与信息学院贵阳550025 贵州省贸易经济学校贵阳550018 
探讨以开源软件heritrix体系构建的获取商品信息爬虫系统,针对heritrix开源爬虫项目存在的问题和商品采集的特点,项目设计了定向抓取包含某一特定内容的网页的类,从而改进heritrix,并引入ELFHash算法进行URL散列中,以提高抓取效率,为面...
来源:详细信息评论
基于heritrix的视频垂直搜索引擎
收藏 引用
《计算机系统应用》2016年 第9期25卷 52-59页
作者:张林商洛学院数学与计算机应用学院商洛726000 
针对目前精品课程网站视频信息多、分布散的特点,通过lucene与heritrix,设计了专门针对视频信息的垂直搜索引擎,使用BKDRHash算法,实现了对视频信息的针对性搜索.搜索时将网页抓取、内容筛选和建立索引的过程结合在一起,大大减少了系统...
来源:详细信息评论
基于Lucene和heritrix技术搜索引擎的设计与实现
收藏 引用
《中国现代教育装备》2010年 第3期 46-48页
作者:孟祥成东南大学江苏南京210012 
使用Lucene和heritrix技术实现局域网站内搜索,该搜索引擎系统的后台完成了信息资源的抓取、建立镜像文件、建立索引、搜索等关键操作。本系统大量采用了第三方的工具,使得在文档格式的转换,分词的建立有了更好的准确度,更加符合人们日...
来源:详细信息评论
聚类工具 回到顶部