看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于文本频率页面分割算法对论坛正文提取 收藏
基于文本频率页面分割算法对论坛正文提取

基于文本频率页面分割算法对论坛正文提取

作     者:马凯凯 钱亚赫 阮东跃 

作者机构:浙江海洋大学数理与信息学院浙江舟山316022 

出 版 物:《中国水运(下半月)》 (China Water Transport)

年 卷 期:2018年第18卷第2期

页      码:78-79页

摘      要:如何在网页数据中避开干扰的图标、广告、链接等"噪音"元素来提取正文是互联网数据处理的重点问题之一。网页的URL由网络协议、主机名、页面文件相对路径等多个部分组成,对于有多个页面的帖子,其URL十分相似。根据这一特性,通过分析页面内的链接文本及结构特征,找出帖子所分布在的所有网址。再利用页面文本的频率特征,去除HTML标签后按空格对文本进行分词,根据其频率分布计算网页的分割标志,得到回帖所在的文本块。再用正则表达式提取时间信息,进一步去噪后即可得到主贴及回帖信息。

主 题 词:网页链接相似度 文本频率 正则表达式 网页去噪 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

馆 藏 号:203283019...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分