看过本文的还看了

相关文献

该作者的其他文献

文献详情 >维吾尔文网页正文抽取系统的研究与实现 收藏
维吾尔文网页正文抽取系统的研究与实现

维吾尔文网页正文抽取系统的研究与实现

作     者:蔡李 单艳 薛化建 苏国平 CAI Li;SHAN Yan;XUE Hua-jian;SU Guo-ping

作者机构:中国科学院新疆理化技术研究所新疆乌鲁木齐830011 中国科学院研究生院北京100049 新疆维吾尔自治区经济和信息化委员会新疆乌鲁木齐830011 

基  金:中国科学院"西部行动计划高新技术基金项目"(KGCX2-YW-507) 

出 版 物:《计算机工程与设计》 (Computer Engineering and Design)

年 卷 期:2012年第33卷第2期

页      码:551-555页

摘      要:从构建大规模维吾尔文语料库的角度出发,归纳总结各类网页正文抽取技术,提出一种基于文本句长特征的网页正文抽取方法。该方法定义一系列过滤和替换规则对网页源码进行预处理,根据文本句长特征来判断文本段是否为网页正文。整个处理过程不依赖DOM树型结构,克服了基于DOM树结构进行正文抽取方法的性能缺陷。实验结果表明,对于维文各类型的网页正文提取,该方法均具有较高的准确度度和较好通用性。

主 题 词:维吾尔文 网页正文抽取 语料库 文本句长特征 web文本挖掘 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1000-7024.2012.02.027

馆 藏 号:203734470...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分