看过本文的还看了

相关文献

该作者的其他文献

文献详情 >SHELL:一种面向流数据的实时基数估计算法 收藏
SHELL:一种面向流数据的实时基数估计算法

SHELL:一种面向流数据的实时基数估计算法

作     者:刘尚东 张殿超 尧海昌 姚橹 叶青 季一木 王汝传 LIU Shangdong;ZHANG Dianchao;YAO Haichang;YAO Lu;YE Qing;JI Yimu;WANG Ruchuan

作者机构:南京邮电大学计算机学院江苏南京210023 南京工业职业技术学院计算机学院江苏南京210023 南京邮电大学江苏省无线传感网高技术研究重点实验室江苏南京210023 南京邮电大学先进技术研究院江苏南京210023 南京理工大学高维信息智能感知与系统教育部重点实验室江苏南京210094 

基  金:国家重点研发计划(2017YFB0202200) 国家自然科学基金(61170065 61373017) 江苏省重点研发计划(BE2017166) 江苏省自然科学基金优秀青年基金(BK20170100) 南京理工大学高维信息智能感知与系统教育部重点实验室开放基金 江苏省无线传感网高技术研究重点实验室开放基金(WSNLBZY201514) 南京邮电大学校级科研基金(NY214067)资助项目 

出 版 物:《南京邮电大学学报(自然科学版)》 (Journal of Nanjing University of Posts and Telecommunications:Natural Science Edition)

年 卷 期:2017年第37卷第4期

页      码:91-96页

摘      要:基数计算在流数据查询优化、网络安全、数据压缩等领域具有重要的应用价值。现有的基于概率统计原理的基数估计算法需要通过扫描历史静态数据才能进行基数统计,由于流数据具有持续、快速和实时等特点,不可能先持久化再处理分析,因而传统的基数估计算法无法直接应用在大数据流处理中。通过研究Spark、Storm实时分布式流处理机制和传统基数估计算法,设计和实现了实时的流数据基数估计算法SHELL(Streaming HypErLogLog),实验表明,SHELL在保证精确度不降低的情况下,单位滑动时间窗口内处理的消息量达到6.0×10~5~6.8×10~5,满足实时性处理的要求。

主 题 词:大数据处理技术 流数据 基数估计 并行化算法 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.14132/j.cnki.1673-5439.2017.04.015

馆 藏 号:203260424...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分