看过本文的还看了

相关文献

该作者的其他文献

文献详情 >结合信息论改进的并行深度森林算法 收藏
结合信息论改进的并行深度森林算法

结合信息论改进的并行深度森林算法

作     者:毛伊敏 耿俊豪 陈亮 MAO Yimin;GENG Junhao;CHEN Liang

作者机构:江西理工大学信息工程学院江西赣州341000 江西理工大学应用科学学院江西赣州341000 

基  金:国家重点研发计划项目(2018YFC1504705) 国家自然科学基金(41562019) 江西省教育厅科技项目(GJJ209406) 

出 版 物:《计算机工程与应用》 (Computer Engineering and Applications)

年 卷 期:2022年第58卷第7期

页      码:106-115页

摘      要:针对并行深度森林算法在处理大数据问题时存在的冗余与不相关特征过多,多粒度扫描不平衡以及并行化效率低等问题,提出了大数据环境下基于信息论改进的并行深度森林算法——IPDFIT(improved parallel deep forest based on information theory)。该算法基于信息论设计了一种混合降维策略DRIT(dimension reduction based on information theory),以获得降维后的数据集,有效减少了冗余及不相关特征的数量;提出了一种改进的多粒度扫描策略IMGSS(improved multi-grained scanning strategy)对样本进行扫描,保证每个特征在扫描后,同频率出现在数据子集中,避免了因多粒度扫描不平衡对深度森林模型的影响;结合MapReduce框架,对深度森林每层级联结构中的随机森林模型进行并行化训练,同时提出了一种样本加权策略TSWS(the sample weighting strategy),根据级联中随机森林模型对样本进行评估,选取评估结果较差的样本进入下一层训练,逐步减少了每层级中训练样本的数量,从而提高了算法的并行效率。实验结果表明,该算法在大数据环境下,尤其是针对特征数较多的数据集有着更好的分类效果。

主 题 词:MapReduce框架 深度森林 DRIT策略 IMGSS策略 TSWS策略 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3778/j.issn.1002-8331.2103-0019

馆 藏 号:203109783...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分