文献检索-宁波市创意产业特色资源库

分布式爬虫系统中url去重的设计与实现: 收藏
分享
引用; 《现代信息科技》2019年第11期3卷 105-106,110页; 作者：陈宇伦周奎湖北汽车工业学院电气与信息工程学院; 目前全球url总数在350亿以上,在满足时效性的前提下,越来越多地选择采用分布式爬虫技术,它可以快速高效地从Web中获取有价值的数据。基于Redis数据库设计一种相关去重协议,实现url去重,有利于提高分布式系统的稳定性和高效性,以及保持...; 目前全球url总数在350亿以上,在满足时效性的前提下,越来越多地选择采用分布式爬虫技术,它可以快速高效地从Web中获取有价值的数据。基于Redis数据库设计一种相关去重协议,实现url去重,有利于提高分布式系统的稳定性和高效性,以及保持整个系统对url去重的一致性。; 来源：详细信息评论

基于Web的智能信息采集及处理系统设计与实现: 收藏
分享
引用; 《计算机工程》2007年第18期33卷 265-267页; 作者：张帆李琳娜杨炳儒北京科技大学信息工程学院北京100083; 互联网信息日益扩展的同时,如何采集和利用Web信息越来越备受关注。该文设计和实现的基于Web的智能信息采集及处理系统,采用高效的url去重和基于模版的下载机制,提高了采集Web资源的性能;应用自然语言处理技术,对采集信息做智能分类和摘...; 互联网信息日益扩展的同时,如何采集和利用Web信息越来越备受关注。该文设计和实现的基于Web的智能信息采集及处理系统,采用高效的url去重和基于模版的下载机制,提高了采集Web资源的性能;应用自然语言处理技术,对采集信息做智能分类和摘要,在发布上突出个性化的信息服务。与同类系统相比,智能性、实用性都显示出了明显的优势。; 来源：详细信息评论

Web全文检索中间件的设计与应用: 收藏
分享
引用; 《计算机应用》2011年第8期31卷 2261-2264页; 作者：张维刚徐永东雷小强何辉哈尔滨工业大学(威海)计算机科学与技术学院山东威海264209 华中科技大学计算机科学与技术学院武汉430074; 为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模url去重算法来进行高效消重;应用...; 为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模url去重算法来进行高效消重;应用所提出的新的基于标签的正文提取方法来进行网页正文提取,实验结果表明该正文提取方法是有效可行的;此外,为了改善用户的搜索体验,该中间件还提供了一些个性化搜索辅助功能。最后,实现了一个完整的博客搜索系统Boso(博搜)来验证中间件的性能,结果说明该中间件是可以投入实际应用的。; 来源：详细信息评论

基于Scrapy框架的校园搜索引擎设计: 收藏
分享
引用; 《科技创新与应用》2020年第14期10卷 84-85页; 作者：马威广东技术师范大学电子与信息学院广东广州510665; 近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用url去重策略来提升校...; 近年来随着数字化校园建设进度的加快,高校校园网站中的信息不断增加。校园网用户量和问题数量的增加导致查找和索引信息变得困难,用户搜索服务的准确率得不到保障。文章基于Scrapy框架对校园搜索引擎进行设计,利用url去重策略来提升校园信息的查询效率,使搜索结果达到满意期望值。; 来源：详细信息评论

基于Larbin的网络爬虫体系结构的研究与改进: 收藏
分享
引用; 《计算机技术与发展》2012年第7期22卷 147-150,170页; 作者：李跃健朱程荣同济大学计算机科学与技术系上海201804; Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,...; Larbin是一种开源的网络爬虫/网络蜘蛛,抓取效率极高。它的url去重方法的设计,效率极高,占用的内存非常小,理论上下载6400万网页,使用的内存只有8M,然而它的冲突将会对它的性能大打折扣,实际上当达到10%的url时就已经有很大的冲突概率,导致内存利用率的降低以及很多网页不能被抓取。通过研究布隆过滤器,将url的hash算法进行改进,把原本一对一的映射变成多对一的映射,减小了冲突概率,同时也将大大地提高Larbin在url内存方面的利用率。经过实验检验,使用布隆过滤器,同样8M内存,当达到10%的url占有率时,采用7个映射,可以使得冲突概率最小,达到0.82%,而没采用Bloom filter的冲突概率则达到了10%。; 来源：详细信息评论

基于WEB的智能信息采集及处理系统研究: 收藏
分享
引用; 《中国新技术新产品》2009年第2期 17-17页; 作者：郑丽群哈尔滨市燃气工程设计研究院黑龙江哈尔滨150016; 本文研究的基于Web的智能信息采集及处理系统,一方面采用高效的url去重和基于模版的下载机制,极大提高了采集Web资源的性能;另一方面应用成熟、先进的自然语言处理技术,对采集信息做智能分类和摘要。; 本文研究的基于Web的智能信息采集及处理系统,一方面采用高效的url去重和基于模版的下载机制,极大提高了采集Web资源的性能;另一方面应用成熟、先进的自然语言处理技术,对采集信息做智能分类和摘要。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：