看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于图文有效信息量的网页正文定位 收藏
基于图文有效信息量的网页正文定位

基于图文有效信息量的网页正文定位

作     者:梁正友 欧杰 俞闽敏 LIANG Zheng-you;OU Jie;YU Min-min

作者机构:广西大学计算机与电子信息学院南宁530004 

基  金:广西自然科学基金资助项目(桂科自0832059) 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2011年第37卷第23期

页      码:276-278页

摘      要:在现有的网页抽取技术中,正文定位方法仅考虑网页文本信息,当正文图片信息较多、文本信息偏少时,容易出现偏差,且定位准确率较低。针对该问题,从信息论角度出发,结合网页中的文本信息图片信息,设计一种对网页中图片信息量和有效信息量的估算方法,在此基础上,提出一种基于图文信息量的网页正文定位算法。实验结果表明,该算法在不同正文文本量的情况下,均具有较高的定位准确率。

主 题 词:正文定位 最小正文子树 有效信息率 网页 图文 

学科分类:0711[理学-心理学类] 07[理学] 071102[071102] 

核心收录:

D O I:10.3969/j.issn.1000-3428.2011.23.093

馆 藏 号:203123300...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分