看过本文的还看了

相关文献

该作者的其他文献

文献详情 >通用的行业网站资讯集成平台的设计与实现 收藏
通用的行业网站资讯集成平台的设计与实现

通用的行业网站资讯集成平台的设计与实现

作     者:邓子云 DENG Ziyun

作者机构:长沙商贸旅游职业技术学院湘商学院湖南长沙410116 

基  金:湖南省自然科学基金课题“一种支持多过滤方法组合的海量网页过滤智能引擎的研制与应用”(项目编号:2020JJ7091),主持人邓子云 国家自然科学青年基金“小样本驱动的风电监控系统网络攻击深度检测方法”(项目编号:62103143),主持人陈磊 

出 版 物:《工业技术与职业教育》 (Industrial Technology and Vocational Education)

年 卷 期:2022年第20卷第2期

页      码:10-14页

摘      要:为集成行业网站资讯并作排名参考、舆情监控、热点提取等场景应用,组织研发了一种通用的行业网站资讯集成平台。该集成平台需要研发行业网站爬虫系统、行业网站数据处理系统、行业网站数据展示系统这3个软件系统。在分析清楚这种通用的行业网站资讯集成平台的功能需求的基础上,给出了该平台的总体技术架构和3个软件系统的设计。给出了增量式爬取网页、二分法提取资讯类网页、预测网页标题等关键技术实现的原理。经研发实现,该集成平台已应用在全国物流行业与湖南统战系统形成行业网站资讯集成平台。全国物流行业网站资讯集成平台已集成10个网站,爬取到313199个网页;湖南统战系统网站资讯集成平台已集成26个网站,爬取到64216个网页。

主 题 词:行业网站 Scrapy爬虫 集成平台 网页分类 提取标题 

学科分类:1305[艺术学-设计学类] 13[艺术学] 

D O I:10.16825/j.cnki.cn13-1400/tb.2022.02.027

馆 藏 号:203110391...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分