看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于Hadoop的海量嘈杂数据决策树算法的实现 收藏
基于Hadoop的海量嘈杂数据决策树算法的实现

基于Hadoop的海量嘈杂数据决策树算法的实现

作     者:刘亚秋 李海涛 景维鹏 LIU Yaqiu;LI Haitao;JING Weipeng

作者机构:东北林业大学信息与计算机工程学院哈尔滨150040 黑龙江省林业生态大数据存储与高性能(云)计算工程技术研究中心哈尔滨150040 

基  金:国家自然科学基金资助项目(31370565) 哈尔滨市科技创新人才研究专项资金资助项目(2013RFXXJ089) 

出 版 物:《计算机应用》 (journal of Computer Applications)

年 卷 期:2015年第35卷第4期

页      码:1143-1147页

摘      要:针对当前决策树算法较少考虑训练集的嘈杂程度对模型的影响,以及传统驻留内存算法处理海量数据困难的问题,提出一种基于Hadoop平台的不确定概率C4.5算法——IP-C4.5算法。在训练模型时,IP-C4.5算法认为用于建树的训练集是不可靠的,通过用基于不确定概率的信息增益率作为分裂属性选择标准,减小了训练集的嘈杂性对模型的影响。在Hadoop平台下,通过将IP-C4.5算法以文件分裂的方式进行MapReduce化程序设计,增强了处理海量数据的能力。与C4.5和完全信条树(CCDT)算法的对比实验结果表明,在训练集数据是嘈杂的情况下,IPC4.5算法的准确率相对更高,尤其当数据嘈杂度大于10%时,表现更加优秀;并且基于Hadoop的并行化的IP-C4.5算法具有处理海量数据的能力。

主 题 词:Hadoop C4.5 不确定概率 嘈杂数据 并行化 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

D O I:10.11772/j.issn.1001-9081.2015.04.1143

馆 藏 号:203448885...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分