看过本文的还看了

相关文献

该作者的其他文献

文献详情 >面向大数据分析的分布式文件系统关键技术 收藏
面向大数据分析的分布式文件系统关键技术

面向大数据分析的分布式文件系统关键技术

作     者:周江 王伟平 孟丹 马灿 古晓艳 蒋杰 Zhou Jiang;Wang Weiping;Meng Dan;Ma Can;Gu Xiaoyan;Jiang Jie

作者机构:中国科学院计算技术研究所计算机应用研究中心北京100190 中国科学院大学北京100049 中国科学院信息工程研究所北京100093 腾讯公司数据平台部广东深圳518057 

基  金:国家"八六三"高技术研究发展计划基金项目(2013AA013204) 中国科学院先导专项基金项目(XDA06030200) 国家自然科学基金项目(60903047) 国家科技支撑计划基金项目(2012BAH46B03) 

出 版 物:《计算机研究与发展》 (Journal of Computer Research and Development)

年 卷 期:2014年第51卷第2期

页      码:382-394页

摘      要:大数据时代的来临使数据分析和处理能力成为数据中心和互联网公司日益倚重的技术手段.信息规模的扩大和数据结构的多样化,使海量数据存储成为大数据分析研究的热点.传统的分布式文件系统在扩展性、可靠性和数据访问性能等方面难以满足新形势下的需求.设计并实现了一个面向大数据分析、专为大规模集群应用的分布式文件系统Clover.该系统采用基于目录划分和一致性Hash映射的名字空间管理方法,解决了元数据扩展性问题;通过改进的两阶段提交协议,保证了多元数据服务器下分布式元数据操作的一致性;提出了基于共享存储池的高可用机制,通过热备和全局状态恢复机制提高了元数据的可靠性.评测结果表明,Clover的元数据处理能力随服务器的数量线性增长,增加单个服务器的元数据操作性能平均提升了5.13%~159.32%.由于名字空间管理和分布式事务的开销,多元数据服务器会导致复杂操作的性能下降,但是这种下降的幅度很小(小于10%).与HDFS相比,Clover的文件读写带宽与之接近,并能够保证在元数据服务器失效后文件系统快速恢复,适合于构建高可扩展和高可用的存储系统.

主 题 词:大数据 海量数据存储 分布式文件系统 元数据可扩展性 高可用性 

学科分类:0810[工学-土木类] 0808[工学-自动化类] 0839[0839] 08[工学] 0835[0835] 0811[工学-水利类] 081201[081201] 0812[工学-测绘类] 081202[081202] 

核心收录:

D O I:10.7544/issn1000-1239.2014.20120863

馆 藏 号:203704536...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分