看过本文的还看了

相关文献

该作者的其他文献

文献详情 >网页数据采集算法及在住户调查中的应用 收藏
网页数据采集算法及在住户调查中的应用

网页数据采集算法及在住户调查中的应用

作     者:沈承放 莫达隆 黄文韬 Shen Chengfang;Mo Dalong;Huang Wentao

作者机构:贺州学院数学与计算机学院广西贺州542899 广西师范大学数学与统计学院广西桂林541004 

基  金:国家社会科学基金西部项目(18XTJ002) 广西师范大学创新计划项目(XYCSZ2019088) 

出 版 物:《统计与决策》 (Statistics & Decision)

年 卷 期:2021年第37卷第7期

页      码:52-56页

摘      要:目前网页数据获取技术仍然存在着动态网页难以解析、网络爬虫速度慢、抓取内容不准确等现象,为了避免此类情况的发生,文章设计了一套基于Selenium的多线程网页数据采集与分析算法。该算法的数据采集部分主要应用了python中用于自动运行和操作浏览器的Selenium库,完美地解决了动态和静态页面数据信息的获取问题,无界面版本浏览器、多线程网络爬虫技术以及关键词判别程序的使用,在很大程度上提高了网络爬虫速度和抓取内容准确度。并将该算法应用到在精准扶贫形式下的住户工资性收入调查数据的准确性判别中。最后以某地区人才市场网为例,抓取各行业工资水平的实时数据,通过对调查数据与抓取数据的比较分析判别住户调查中工资数据的准确性。

主 题 词:网页数据采集算法 住户调查 网络爬虫 多线程 精准扶贫 python Selenium 

学科分类:02[经济学] 0202[经济学-财政学类] 020208[020208] 07[理学] 0714[0714] 070103[070103] 0701[理学-数学类] 

核心收录:

D O I:10.13546/j.cnki.tjyjc.2021.07.010

馆 藏 号:203102662...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分