看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向Web新闻与博客的内容提取方法 收藏
面向Web新闻与博客的内容提取方法

面向Web新闻与博客的内容提取方法

作     者:王金麟 方滨兴 于海宁 马雪阳 WANG Jinlin;FANG Binxing;YU Haining;MA Xueyang

作者机构:哈尔滨工业大学计算机科学与技术学院哈尔滨150001 

基  金:国家重点研发计划(2016QY03D0501,2017YFB0803300) 国家自然科学基金(61601146,61732022) 四川省科技计划项目(2019YFSY0049) 

出 版 物:《智能计算机与应用》 (Intelligent Computer and Applications)

年 卷 期:2020年第10卷第7期

页      码:1-4,10页

摘      要:Web深刻地改变了社会生活,新闻和博客网站作为其中代表性的消息来源,为人们提供了方便的信息获取方式。在Web分析的实际业务中,广告、文章推荐等无关信息的存在,给新闻和博客网页中主要内容的提取带来了负面影响。本文提出了一种区别于抽取模板的新闻和博客内容提取方法CEVC,通过定义有效字符,对网页内容文件的DOM树进行递归计算,确定最具代表性的子节点作为主要内容节点。实验选取了中文与英文网页作为数据集,定义了提取新闻和博客内容的性能指标。对比实验的结果表明,CEVC在Web内容提取方面的性能优于现有方法。

主 题 词:Web分析 内容提取 DOM树 

学科分类:08[工学] 080402[080402] 0804[工学-材料学] 

馆 藏 号:203101662...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分