看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本及符号密度的网页正文提取方法 收藏
基于文本及符号密度的网页正文提取方法

基于文本及符号密度的网页正文提取方法

作     者:洪鸿辉 丁世涛 黄傲 郭致远 HONG Hong-hui;DING Shi-tao;HUANG Ao;GUO Zhi-yuan

作者机构:武汉邮电科学研究院湖北武汉430000 

出 版 物:《电子设计工程》 (Electronic Design Engineering)

年 卷 期:2019年第27卷第8期

页      码:133-137页

摘      要:大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还可以保留原始结构。通过与现有的一些算法对比,可以体现该算法的精确度,同时该算法可以较好的支持大数据量网页正文提取操作。

主 题 词:文本密度 算法 噪音 正文提取 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1674-6236.2019.08.029

馆 藏 号:203622089...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分