看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本块密度与标签路径等特征的正文提取 收藏
基于文本块密度与标签路径等特征的正文提取

基于文本块密度与标签路径等特征的正文提取

作     者:杨贤 唐超兰 李航 Yang Xian;Tang Chao-lan;Li Hang

作者机构:广东工业大学艺术与设计学院广东广州510090 广东工业大学计算机学院广东广州510006 

基  金:广东省部产学研专项资金企业创新平台资助项目(2013B090800042) 

出 版 物:《广东工业大学学报》 (Journal of Guangdong University of Technology)

年 卷 期:2018年第35卷第2期

页      码:51-56页

摘      要:为了解决网页中除正文信息外还包含网页导航、广告和免责声明等噪声信息的问题,本文提出一种基于标签路径等多特征和文本块密度的正文提取方法.首先根据文本块密度特征确定正文区域,然后在区域内使用标签路径等特征剔去噪音节点,最后抽取该文本块中的正文节点内容.该方法有效解决了网页正文块中噪声信息难以过滤和标签路径等特征易对正文部分外较长文本误抽取的问题,且无须训练和人工处理.从知名网站上随机选取新闻网页数据集进行实验,验证了该方法在不同数据源上都具有很好的适用性,抽取精确度优于CETR、CETD等方法.

主 题 词:正文抽取 文本块 标签路径 文本密度 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.12052/gdutxb.170152

馆 藏 号:203284558...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分