限定检索结果

检索条件"主题词=正文提取"
10 条 记 录,以下是1-10 订阅
视图:
排序:
采用长短期记忆网络的深度学习方法进行网页正文提取
收藏 引用
《计算机应用》2021年 第S01期41卷 20-24页
作者:陈前华 胡嘉杰 江吉 吴豪东莞中国科学院云计算产业技术创新与育成中心广东东莞523808 广东电子工业研究院人工智能实验室广东东莞523808 
针对复杂网页上主题信息被过多地与主题无关的广告、导航、版权等噪声信息隐藏的问题,提出一种基于长短期记忆的深度学习正文提取方法(LTE)。首先,设计一种根据超文本标记语言(HTML)中标签信息的数据划分策略:通过遍历HTML代码的文档对...
来源:详细信息评论
绿色网络网页正文内容提取算法
收藏 引用
《计算机工程》2013年 第7期39卷 252-256页
作者:龙珑 邓伟广西师范学院计算机与信息工程学院南宁530023 广西肿瘤防治研究所南宁530021 
互联网中的网页有较多商业广告,绿色网络系统无法过滤其中具有不良内容的网站。为解决该问题,提出一种绿色网络网页正文内容提取算法。通过文件对象模型树识别与提取网页正文内容模块,使用基于粒子群的权值优化算法对网页正文各个板块...
来源:详细信息评论
基于改进内容分析算法的网页正文提取
收藏 引用
《计算机工程与设计》2018年 第4期39卷 1017-1021页
作者:陈婷婷 严华 臧军四川大学电子信息学院四川成都610000 电子信息控制重点实验室四川成都610000 中石化管道储运有限公司荆门输油处湖北荆门448000 
针对内容分析算法,即Readability算法,在正文抽取中易丢失部分正文字段、锚文本、结构数据(表格、列表)的缺点,提出一种改进的网页正文提取算法。基于网页正文的结构特征,在原算法基础上评估非p标签节点的文本特性;引入节点相对距离过...
来源:详细信息评论
基于文本及HTML标签密度的网页正文提取
收藏 引用
《沈阳理工大学学报》2022年 第4期41卷 14-19页
作者:杨大为 王诗念 包立岩 要虹吏 刘畅沈阳理工大学信息科学与工程学院沈阳110159 
大多数资讯类网页都包含了与资讯正文无关的内容,如推荐、广告等,这些噪声对获取资讯正文具有较大干扰性。针对基于文本及符号密度的网页正文提取方法(TSD)没有考虑段落标签对提取效果的影响部分进行改进,提出基于文本及HTML标签密度的...
来源:详细信息评论
基于文本及符号密度的网页正文提取方法
收藏 引用
《电子设计工程》2019年 第8期27卷 133-137页
作者:洪鸿辉 丁世涛 黄傲 郭致远武汉邮电科学研究院湖北武汉430000 
大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信息。这些额外的内容亦被称为噪声,通常与主题无关。由于这些噪声会妨碍搜索引擎对Web数据的挖掘性能,所以需要过滤噪声。在本文中,我们提出基于网页文本密度与符号密...
来源:详细信息评论
Web全文检索中间件的设计与应用
收藏 引用
《计算机应用》2011年 第8期31卷 2261-2264页
作者:张维刚 徐永东 雷小强 何辉哈尔滨工业大学(威海)计算机科学与技术学院山东威海264209 华中科技大学计算机科学与技术学院武汉430074 
为了更好地为Web站内检索提供服务,对Web全文检索的关键技术进行了研究,设计并实现了一个用于Web全文检索的中间件。该中间件通过多线程网页爬虫程序来抓取网页;对抓取结果采用基于Bloom-Filter的大规模URL去重算法来进行高效消重;应用...
来源:详细信息评论
面向Web论坛的网络信息获取技术及系统实现
收藏 引用
《计算机工程与科学》2011年 第1期33卷 157-160页
作者:彭冬 蔡皖东西北工业大学计算机学院陕西西安710072 
网络爬虫技术是网络信息获取的重要手段,面向Web论坛的信息获取则是网络爬虫技术所面临的新课题。在分析和研究面向Web论坛信息获取技术的基础上,本文设计和实现了一种用于Web论坛信息获取的主题网络爬虫系统,根据Web论坛信息组织结构,...
来源:详细信息评论
农作物信息垂直搜索引擎的研究
收藏 引用
《安徽农业科学》2012年 第19期40卷 10348-10351页
作者:曹恒 张茜北京林业大学北京100083 北京市测绘设计研究院北京100038 
根据中文信息处理的理论分析和当前搜索引擎技术的发展现状,按照软件工程的方法,研究了农作物垂直搜索引擎的总体设计过程,设计过程重点论述了需求分析、功能规划和总结结构,其中详细介绍了信息采集、信息过滤和正文提取等模块的设计与...
来源:详细信息评论
高校网络舆情监控系统的设计与实现
收藏 引用
《福建电脑》2018年 第9期34卷 49-50页
作者:胡万亭 冯慧蕊河南大学濮阳工学院河南濮阳市457000 
互联网改变了人们传播舆论的方式,极易导致突发网络舆情事件,本文针对高校网络舆情的特点,设计并实现了基于网络论坛的高校网络舆情监控系统。下载高校论坛网页,抽取正文,统计分析后将数据可视化显示出来。高校管理者通过监控系统可以...
来源:详细信息评论
一种高效的新闻网页噪声过滤方法
收藏 引用
《微型机与应用》2011年 第16期30卷 64-67,71页
作者:邹永强 钟志农国防科技大学电子科学与工程学院湖南长沙410073 
网页噪声过滤是网页预处理中关键的一步,其处理结果对后续处理的效率和准确性都有很大的影响。本文基于文本块字符数的统计规律,在总结了新闻网页特点的基础上设计了一种高效的新闻网页噪声过滤算法。该算法不仅完成了新闻正文提取,...
来源:详细信息评论
聚类工具 回到顶部