限定检索结果

检索条件"主题词=爬行策略"
9 条 记 录,以下是1-10 订阅
视图:
排序:
基于关键词相关度的Deep Web爬虫爬行策略
收藏 引用
《计算机工程》2008年 第15期34卷 220-222页
作者:田野 丁岳伟上海理工大学计算机工程学院上海200093 
Deep Web蕴藏丰富的、高质量的信息资源,为了获取某Deep Web站点的页面,用户不得不键入一系列的关键词集。由于没有直接指向Deep Web页面的静态链接,目前大多数搜索引擎不能发现这些页面。该文提出的Deep Web爬虫爬行策略,可以有效地下...
来源:详细信息评论
一种Deep Web爬虫爬行策略
收藏 引用
《计算机工程》2012年 第11期38卷 284-286页
作者:刘徽 黄宽娜 余建桥乐山师范学院数学与信息科学学院四川乐山614004 西南大学计算机与信息科学学院重庆400715 
Deep Web包含丰富的、高质量的信息资源,由于没有直接指向Deep Web页面的静态链接,目前大多搜索引擎不能发现这些页面,只能通过填写表单提交查询获取。为此,提出一种Deep Web爬虫爬行策略。用网页分类器的分层结果指导链接信息提取器提...
来源:详细信息评论
网络蜘蛛在网络论坛领域的研究与设计
收藏 引用
《计算机应用研究》2011年 第2期28卷 492-494,520页
作者:滕召生 胡德敏上海理工大学光电信息与计算机工程学院上海200093 
为了提高网络蜘蛛在爬行网络论坛时的爬行效率,从论坛布局结构特点出发,分析论坛所具有的普遍特征,设计了一个针对论坛的特殊的网络蜘蛛爬行策略。通过对大量论坛的布局结构分析发现,用户感兴趣的信息都使用设计者事先设计好的布局结构...
来源:详细信息评论
网络爬虫效率瓶颈的分析与解决方案
收藏 引用
《计算机应用》2008年 第5期28卷 1114-1116,1119页
作者:尹江 尹治本 黄洪西南交通大学信息科学与技术学院成都610031 
网络爬虫的效率,直接关系到搜索引擎系统为用户提的供服务质量。如何设计高效、快速的网络爬虫,成为目前网络爬虫研究的热点。要提高网络爬虫的爬行效率,除了需要改进网络爬虫的爬行策略之外,还需要优化网络爬自身的设计,改进网络爬虫...
来源:详细信息评论
分布式Web Crawler的研究:结构、算法和策略
收藏 引用
《电子学报》2002年 第12A期30卷 2008-2011页
作者:叶允明 于水 马范援 宋晖 张岭上海交通大学计算机科学与工程系上海200030 
本文介绍了一个大型分布式Web Crawler系统——Igloo 1.2版。它采用分布式的系统结构,通过我们设计的二级哈希映射算法使系统可以进行高效的任务分割,并且系统的规模动态可扩展.爬行网页的质量是评价Crawler的一个重要指标,Igloo以PageR...
来源:详细信息评论
网络蜘蛛的设计与实现
收藏 引用
《现代计算机》2009年 第11期15卷 141-144,148页
作者:陈瑜芳 何克右武汉理工大学计算机科学与技术学院武汉430063 
从网络蜘蛛的介绍出发,阐述网络蜘蛛的搜索策略以及相关算法,并介绍网络蜘蛛MySipder的具体设计与实现,包括网页解析、重复链接分析、DNS解析、网络通信等内容。该系统经实际运行,效果良好,给出有待进一步改进的地方。
来源:详细信息评论
基于Heritrix的面向电子商务网站增量爬虫研究
收藏 引用
《软件导刊》2010年 第7期9卷 38-39页
作者:杨颂 欧阳柳波湖南大学软件学院湖南长沙410082 
针对电子商务网站的特点,基于Heritrix开源爬虫系统,结合电子商务网站的特点,提出了面向电子商务网站的增量爬行策略。并在开源爬虫系统Heritrix上进行了实现,增加了面向电子商务网站商品页面的抽取功能,以及增量抓取功能设计。通过对...
来源:详细信息评论
基于主题网络爬虫的创业政策信息采集研究与实现
收藏 引用
《电脑知识与技术(过刊)》2017年 第5X期23卷 49-51页
作者:郑正 赵飞 周昕旸南京师范大学计算机科学与技术学院江苏南京210046 
为了快速地获取创业政策信息的采集与定位,该文设计了一种基于主题网络爬虫的爬行策略和网页相关度算法,文中详细描述了种子URL的设计,定时更新策略,网页相关性的识别分类方法,以及该网页在创业政策信息中的重要性设计算法,并呈现了设...
来源:详细信息评论
基于海量URL数据存取的快速文件系统设计分析
收藏 引用
《信息通信》2012年 第6期25卷 89-90页
作者:卫锋 刘烜 苏庆华南宁天梯网络科技有限公司广西南宁530021 
海量的URL快速文件系统建立的目标就是提供高速的处理机制,此时以高性能的web爬虫为基础的系统可以帮助实现这个目标。为了实现这个快速目标,URL往往将被保存在一个专业数据库中,但数据量的增加会给爬虫技术带来巨大的压力,关系数据库...
来源:详细信息评论
聚类工具 回到顶部