文献详情 >维吾尔文网页正文抽取系统的研究与实现收藏

维吾尔文网页正文抽取系统的研究与实现

作者：蔡李单艳薛化建苏国平 CAI Li;SHAN Yan;XUE Hua-jian;SU Guo-ping

作者机构：中国科学院新疆理化技术研究所新疆乌鲁木齐830011 中国科学院研究生院北京100049 新疆维吾尔自治区经济和信息化委员会新疆乌鲁木齐830011

基　　金：中国科学院"西部行动计划高新技术基金项目"(KGCX2-YW-507)

出版物：《计算机工程与设计》 (Computer Engineering and Design)

年卷期：2012年第33卷第2期

页码：551-555页

摘要：从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。

主题词：维吾尔文网页正文抽取语料库文本句长特征 web文本挖掘

学科分类：081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类]

D　O　I：10.3969/j.issn.1000-7024.2012.02.027

馆藏号：203734470...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

维吾尔文网页正文抽取系统的研究与实现

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

维吾尔文网页正文抽取系统的研究与实现

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：