看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一种基于知识工程的DeepWeb信息抽取方法 收藏
一种基于知识工程的DeepWeb信息抽取方法

一种基于知识工程的DeepWeb信息抽取方法

作     者:乌尔柯西 杨抒 王业 游香薷 WU Er-ke-xi;YANG Shu;WANG Ye;YOU Xiang-ru

作者机构:新疆农业大学计算机与信息工程学院新疆乌鲁木齐830052 

基  金:新疆维吾尔自治区自然科学基金(2014211B023) 

出 版 物:《计算机技术与发展》 (Computer Technology and Development)

年 卷 期:2016年第26卷第9期

页      码:183-186,191页

摘      要:DeepWeb中蕴含的信息越发庞大并且价值可观。但是由于DeepWeb信息的高度异构性、自主性、动态性以及不完整性,DeepWeb主题性网站的设计风格、页面结构、显示内容的不同,JavaScript技术的广泛使用等因素,使传统的抽取技术无法有效自动化集成蕴含在DeepWeb中的高质量信息资源。提出一种基于KBE(知识工程)的DeepWeb信息抽取方法。通过对目标DeepWeb的页面模式、页面HTML结构、页面视觉信息等进行分析、整合,利用HTML DOM(Document Object Model)树解析算法,自动或半自动方式匹配出符合页面模式、页面HTML结构以及目标信息源等元素的模板,来对DeepWeb中的信息进行定位,从而得到页面中的自由文本,结构化和半结构化数据。实验以大量嵌套结构的网站数据作为数据来源,验证了抽取方法的有效性。

主 题 词:DeepWeb JavaScript技术 嵌套结构 DOM树 抽取模型 

学科分类:08[工学] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1673-629X.2016.09.041

馆 藏 号:203187792...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分