限定检索结果

检索条件"主题词=URL去重"
6 条 记 录,以下是1-10 订阅
视图:
排序:
分布式爬虫系统中url去重的设计与实现
收藏 引用
《现代信息科技》2019年 第11期3卷 105-106,110页
作者:陈宇伦 周奎湖北汽车工业学院电气与信息工程学院 
目前全球url总数在350亿以上,在满足时效性的前提下,越来越多地选择采用分布式爬虫技术,它可以快速高效地从Web中获取有价值的数据。基于Redis数据库设计一种相关去重协议,实现url去重,有利于提高分布式系统的稳定性和高效性,以及保持...
来源:详细信息评论
基于Web的智能信息采集及处理系统设计与实现
收藏 引用
《计算机工程》2007年 第18期33卷 265-267页
作者:张帆 李琳娜 杨炳儒北京科技大学信息工程学院北京100083 
互联网信息日益扩展的同时,如何采集和利用Web信息越来越备受关注。该文设计和实现的基于Web的智能信息采集及处理系统,采用高效的url去重和基于模版的下载机制,提高了采集Web资源的性能;应用自然语言处理技术,对采集信息做智能分类和摘...
来源:详细信息评论
Web全文检索中间件的设计与应用
收藏 引用
《计算机应用》2011年 第8期31卷 2261-2264页
作者:张维刚 徐永东 雷小强 何辉哈尔滨工业大学(威海)计算机科学与技术学院山东威海264209 华中科技大学计算机科学与技术学院武汉430074 
为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模url去重算法来进行高效消重;应用...
来源:详细信息评论
基于Scrapy框架的校园搜索引擎设计
收藏 引用
《科技创新与应用》2020年 第14期10卷 84-85页
作者:马威广东技术师范大学电子与信息学院广东广州510665 
近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用url去重策略来提升校...
来源:详细信息评论
基于Larbin的网络爬虫体系结构的研究与改进
收藏 引用
《计算机技术与发展》2012年 第7期22卷 147-150,170页
作者:李跃健 朱程荣同济大学计算机科学与技术系上海201804 
Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,...
来源:详细信息评论
基于WEB的智能信息采集及处理系统研究
收藏 引用
《中国新技术新产品》2009年 第2期 17-17页
作者:郑丽群哈尔滨市燃气工程设计研究院黑龙江哈尔滨150016 
本文研究的基于Web的智能信息采集及处理系统,一方面采用高效的url去重和基于模版的下载机制,极大提高了采集Web资源的性能;另一方面应用成熟、先进的自然语言处理技术,对采集信息做智能分类和摘要。
来源:详细信息评论
聚类工具 回到顶部