T=题名(书名、题名),A=作者(责任者),K=主题词,P=出版物名称,PU=出版社名称,O=机构(作者单位、学位授予单位、专利申请人),L=中图分类号,C=学科分类号,U=全部字段,Y=年(出版发行年、学位年度、标准发布年)
AND代表“并且”;OR代表“或者”;NOT代表“不包含”;(注意必须大写,运算符两边需空一格)
范例一:(K=图书馆学 OR K=情报学) AND A=范并思 AND Y=1982-2016
范例二:P=计算机应用与软件 AND (U=C++ OR U=Basic) NOT K=Visual AND Y=2011-2016
摘要:目前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深入分析视频类网站页面的树形结构的构架,并基于htmlparser的信息提取方法 ,从种子页面中提取出相关的视频信息用于视频信息知识库的构建。
摘要:无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合htmlparser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜索器,并基于htmlparser的信息提取方法,从种子页面中提取出与生活类主题相关的目标URL。经实验测试证明该爬虫的爬准率达93.552%,爬全率达96.720%,表明该网络爬虫是有效的,达到中等规模的垂直搜索企业级应用的要求。
摘要:Heritrix是由Java开发的开源Web网络爬虫,htmlparser技术对抓取后网页内容进行高效率解析,对信息进行再一次整合,很好的解决了专业搜索引擎所需数据来源问题。文章探讨了基于Heritrix和htmlparser构建Web信息收集系统的设计和实现。
摘要:针对企业创新对专利检索与利用的需求设计了面向企业的专利采集与服务系统。系统采用Web挖掘技术从Internet上采集专利数据,构建面向企业、面向主题的专利数据库;同时为企业建立从内部专利申请到办理,从专利检索到统计分析,到竞争对手专利信息分析等全方位、一体化的管理与服务平台。工程应用效果表明该系统满足企业的需求,推动了企业科技创新发展。
摘要:针对现行电力设备检修辅助分析系统用户不能设计试验报告格式、不能兼容异构数据库等缺陷,提出了一种具有数据抽象和面向对象风格与层次系统风格相结合的软件体系结构。在此基础上,给出了一种以FrontPage设计试验报告格式,利用Hibernate、htmlparser、XML等技术动态生成试验报告、建立库表、增加实体域对象,并兼容异构数据库的电力设备检修辅助分析系统的设计方案,给出了关键实现代码。
摘要:【目的】针对高水平期刊文献的中文导读这类特定的新闻信息,构建一套自动汇聚医学网站新闻系统,实现关键词提取、分类及期刊导航等二次数据加工功能。【应用背景】为图书馆开展主动推送及学科服务提供国外学术研究信息源。【方法】利用Http Client与HtmlP arser构建主题网页采集器,实现新闻列表页及内容采集。利用IK Analyzer2012分词器及医学主题词表实现关键词提取及学科分类。【结果】系统实现指定网站新闻的自动采集、关键词提取、学科分类归属等功能。【结论】为图书馆员开展学术信息推送及学科化服务等提供一套行之有效的工具,为医学研究者纵览学术进展提供一站式访问。
摘要:建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。
摘要:互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细介绍了如何使用htmlparser来提取网页当中的超链接信息,将其清洗后存入SQL数据库当中,以备后续工作使用。
摘要:网络搜索引擎是指自动地从网络搜集信息,经过处理后提供给用户查询的系统。设计了一个网络自动搜索引擎,给出了系统的设计框架和各组成模块之间的关系,从系统代码实现的角度详细说明了实现思路和方案,并基于htmlparser开源工具包和SQL Server 2008数据库实现了该网络搜索系统。
摘要:调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和htmlparser等为基础,构建一个简单的具有基本功能的高校图书馆搜索引擎,以期为后续的研究打下基础。
地址:宁波市钱湖南路8号浙江万里学院(315100)
Tel:0574-88222222
招生:0574-88222065 88222066
Email:yzb@zwu.edu.cn