看过本文的还看了

相关文献

该作者的其他文献

文献详情 >Spark下基于PCA和分层选择的随机森林算法 收藏
Spark下基于PCA和分层选择的随机森林算法

Spark下基于PCA和分层选择的随机森林算法

作     者:雷晨 毛伊敏 LEI Chen;MAO Yimin

作者机构:江西理工大学信息工程学院江西赣州341000 

基  金:国家重点研发计划(2018YFC1504705) 国家自然科学基金(41562019) 江西省教育厅科技项目(GJJ151528,GJJ151531) 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2022年第58卷第6期

页      码:118-127页

摘      要:针对大数据背景下随机森林算法中存在协方差矩阵规模较大、子空间特征信息覆盖不足和节点通信开销大的问题,提出了基于PCA和子空间分层选择的并行随机森林算法PLA-PRF(PCA and subspace layer sampling on parallel random forest algorithm)。对初始特征集,提出了基于PCA的矩阵分解策略(matrix factorization strategy,MFS),压缩原始特征集,提取主成分特征,解决特征变换过程中协方差矩阵规模较大的问题;基于主成分特征,提出基于误差约束的分层子空间构造算法(error-constrained hierarchical subspace construction algorithm,EHSCA),分层选取信息素特征,构建特征子空间,解决子空间特征信息覆盖不足的问题;在Spark环境下并行化训练决策树的过程中,设计了一种数据复用策略(data reuse strategy,DRS),通过垂直划分RDD数据并结合索引表,实现特征复用,解决了节点通信开销大的问题。实验结果表明PLA-PRF算法分类效果更佳,并行化效率更高。

主 题 词:随机森林 Spark 主成分分析(PCA) 分层抽样 误差约束 数据划分 数据复用 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3778/j.issn.1002-8331.2009-0316

馆 藏 号:203108755...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分