看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Web页面自顶向下的正文信息定位算法 收藏
Web页面自顶向下的正文信息定位算法

Web页面自顶向下的正文信息定位算法

作     者:缪霖 邱会中 MIAO Lin;QIU Hui-zhong

作者机构:电子科技大学计算机科学与工程学院成都610054 

基  金:国家"863"计划基金资助项目"Web舆情的社会网络关系挖掘"(2007AA01Z440) 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2010年第36卷第13期

页      码:76-78页

摘      要:正文信息是一个Web网页中除了链接、导航、广告等以外的主题信息。提出并实现一种针对含"正文"的Web页面的信息提取算法。该算法采用自顶向下遍历HTML标签树的方法,通过文字链接率、连续文字长度等统计数据不断筛选、分析,从而定位最佳正文信息域,将文字内容提取出来。实验结果表明,该算法可行性强,具有较高的准确率。

主 题 词:正文信息定位 文字链接率 最佳正文子树 标签树 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

核心收录:

D O I:10.3969/j.issn.1000-3428.2010.13.027

馆 藏 号:203133313...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分