看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于分布式Docker群集的招聘网站职位数据持续爬取和分析 收藏
基于分布式Docker群集的招聘网站职位数据持续爬取和分析

基于分布式Docker群集的招聘网站职位数据持续爬取和分析

作     者:张梁斌 柴晖 王渊明 万健 ZHANG Liang-bin;CHAI Hui;WANG Yuan-ming;WAN Jian

作者机构:浙江万里学院浙江宁波315100 杭州电子科技大学浙江杭州310018 

基  金:2018年度高校访问学者“教师专业发展项目”(FX2018050) 2018年浙江省大学生科技创新项目暨新苗人才计划(2018R420016) 

出 版 物:《浙江万里学院学报》 (Journal of Zhejiang Wanli University)

年 卷 期:2019年第32卷第2期

页      码:85-90页

摘      要:许多大型在线求职平台由于招聘信息不统一,求职者难以在丰富冗余的求职信息中找到合适精准的信息。利用网页爬虫技术,设计实现了分布式Docker容器群集架构下招聘网站的职位数据持续爬取和分析展示。首先,利用Swarm容器管理工具构建多台物理主机的Docker群集;然后,利用Python的Scarpy框架对主流招聘网站的非结构化职位信息进行持续性分布式网络爬虫,涉及URL地址去重、数据采集、提取和清洗等,产生招聘职位的MYSQL数据库;最后,对求职数据库进行分析挖掘,生成职位数量分布热力图、岗位技能画像和可视化展示的统计图表,可为求职者提供直观的职位信息参考。

主 题 词:招聘职位 网页爬虫 Docker群集 Swarm 可视化 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

馆 藏 号:203655371...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分