限定检索结果

检索条件"主题词=Htmlparser"
20 条 记 录,以下是1-10 订阅
视图:
排序:
专用Web信息收集系统的设计和实现
收藏 引用
《煤炭技术》2011年 第8期30卷 190-191页
作者:朱雪莲新疆艺术学院基础部乌鲁木齐830049 
Heritrix是由Java开发的开源Web网络爬虫,htmlparser技术对抓取后网页内容进行高效率解析,对信息进行再一次整合,很好的解决了专业搜索引擎所需数据来源问题。文章探讨了基于Heritrix和htmlparser构建Web信息收集系统的设计和实现。
来源:详细信息评论
基于htmlparser视频信息抽取系统的设计与实现
收藏 引用
《科技传播》2011年 第22期3卷 207-208页
作者:史诚同济大学软件学院上海201804 
目前视频网站成为人们上网时不可或缺的娱乐途径,但现在的视频网站对视频的分类以及描述参差不齐,其主要原因就是没有构建统一的视频信息知识库,而构建知识库的核心技术就是网络爬虫的设计。本文针对视频类网站进行了详细研究。通过深...
来源:详细信息评论
基于htmlparser信息提取的网络爬虫设计
收藏 引用
《微计算机信息》2009年 第15期25卷 123-124,69页
作者:郑力明 易平暨南大学信息科学技术学院510632 
无论是通用搜索还是垂直搜索,其关键的核心技术之一就是网络爬虫的设计。本文结合htmlparser信息提取方法,对生活类垂直搜索引擎中网络爬虫进行了详细研究。通过深入分析生活类网站网址的树形结构的构架,开发了收集种子页面URL的模拟搜...
来源:详细信息评论
企业专利采集与服务系统的设计与实现
收藏 引用
《情报杂志》2012年 第10期31卷 136-140页
作者:胡杰 何小菁 仝亮南京医科大学康达学院南京210029 南京航空航天大学计算机科学与技术学院南京210016 
针对企业创新对专利检索与利用的需求设计了面向企业的专利采集与服务系统。系统采用Web挖掘技术从Internet上采集专利数据,构建面向企业、面向主题的专利数据库;同时为企业建立从内部专利申请到办理,从专利检索到统计分析,到竞争对手...
来源:详细信息评论
电力设备检修辅助分析系统
收藏 引用
《计算机工程》2007年 第17期33卷 246-248页
作者:杜亚平 崔杜武 王竹荣 卢军西安理工大学计算机科学与工程学院西安710048 
针对现行电力设备检修辅助分析系统用户不能设计试验报告格式、不能兼容异构数据库等缺陷,提出了一种具有数据抽象和面向对象风格与层次系统风格相结合的软件体系结构。在此基础上,给出了一种以FrontPage设计试验报告格式,利用Hibernate...
来源:详细信息评论
医学学术信息自动采集系统的设计与实现
收藏 引用
《现代图书情报技术》2014年 第11期 73-78页
作者:武海东 何晓阳 张精理第三军医大学图书馆重庆400038 
【目的】针对高水平期刊文献的中文导读这类特定的新闻信息,构建一套自动汇聚医学网站新闻系统,实现关键词提取、分类及期刊导航等二次数据加工功能。【应用背景】为图书馆开展主动推送及学科服务提供国外学术研究信息源。【方法】利用H...
来源:详细信息评论
基于单元识别的网页信息抽取方法
收藏 引用
《广西大学学报(自然科学版)》2011年 第5期36卷 787-791页
作者:柳永念 钟诚 焦小焦广西大学计算机与电子信息学院广西南宁530004 
建立基于链的父亲结构树描述和存储网页信息,采用Htmlparse和基于正则表达式的描述方法,设计、实现了一种高效的基于单元识别的网页信息抽取算法。分析与实验结果表明,文中给出的网页信息抽取方法能提高检索的查准率和查全率。
来源:详细信息评论
HtmIParser提取网页信息的设计与实现
收藏 引用
《江西理工大学学报》2007年 第6期28卷 26-28,35页
作者:黄颖 黄治平江西理工大学信息工程学院江西赣州341000 赣南师范学院江西赣州341000 
互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接、email和图片等,而HTML语言所表述的web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理,文中详细...
来源:详细信息评论
一个网络搜索引擎的设计与实现
收藏 引用
《福建电脑》2013年 第11期29卷 159-162,155页
作者:白晋伟苏州大学图书馆数字化部苏州江苏215006 
网络搜索引擎是指自动地从网络搜集信息,经过处理后提供给用户查询的系统。设计了一个网络自动搜索引擎,给出了系统的设计框架和各组成模块之间的关系,从系统代码实现的角度详细说明了实现思路和方案,并基于htmlparser开源工具包和SQL S...
来源:详细信息评论
基于Heritrix+Lucene的高校图书馆网站全文搜索引擎构建
收藏 引用
《情报探索》2013年 第9期 101-105页
作者:华京生 李萍南京艺术学院图书馆江苏南京210013 
调查分析高校图书馆网站的发展现状,发现高校图书馆网站普遍存在信息不易搜索和利用的问题,指出应该使用全文搜索技术对高校图书馆网站的信息资源进行联合检索。以开源软件Heritrix、Lucene和htmlparser等为基础,构建一个简单的具有基...
来源:详细信息评论
聚类工具 回到顶部