文献详情 >Web页面自顶向下的正文信息定位算法收藏

Web页面自顶向下的正文信息定位算法

作者：缪霖邱会中 MIAO Lin;QIU Hui-zhong

基　　金：国家"863"计划基金资助项目"Web舆情的社会网络关系挖掘"(2007AA01Z440)

出版物：《计算机工程》 (Computer Engineering)

年卷期：2010年第36卷第13期

页码：76-78页

摘要：正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。

主题词：正文信息定位文字链接率最佳正文子树标签树

学科分类：08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类]

核心收录：

D　O　I：10.3969/j.issn.1000-3428.2010.13.027

馆藏号：203133313...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

Web页面自顶向下的正文信息定位算法

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

Web页面自顶向下的正文信息定位算法

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：