看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于python的分布式网络反爬虫数据有序性研究 收藏
基于python的分布式网络反爬虫数据有序性研究

基于python的分布式网络反爬虫数据有序性研究

作     者:朱镕申 孙川钘 潘虹 ZHU Rong-shen;SUN Chuang-xing;PAN Hong

作者机构:电子科技大学成都学院四川成都611731 

基  金:分布式数据库隐私信息增量式更新方法仿真(2017ZY0725) 

出 版 物:《计算机仿真》 (Computer Simulation)

年 卷 期:2023年第40卷第5期

页      码:426-429,447页

摘      要:爬虫产生的负面影响导致网站无法正常访问、运行,故反爬虫技术应运而生,针对反爬虫数据存在的无序性问题,提出面向分布式网络反爬虫数据有序性研究,降低数据后续处理难度。基于python语言及其Scrapy结构,架构分步式网络反爬虫模型,采取人为纠错、主成分分析线性降维以及数据转换等预处理手段,获取特征清晰的反爬虫数据集;根据反爬虫数据样本集与训练集的合并集,结合有向图,利用k最邻近分类算法划分反爬虫数据类别,针对分布式网络反爬虫数据的无序性,设计比特序列递推算法,赋予反爬虫数据有序性。仿真阶段中,经对比百度图片与反爬取到的图片顺序,验证所提方法的有效性,通过探索带宽环境对数据有序性的影响可知,其有序性不受带宽环境影响。

主 题 词:分布式网络 反爬虫数据 有序性 分类算法 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1006-9348.2023.05.078

馆 藏 号:203122393...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分