看过本文的还看了

相关文献

该作者的其他文献

文献详情 >云原生数据湖服务平台的设计与实现 收藏
云原生数据湖服务平台的设计与实现

云原生数据湖服务平台的设计与实现

作     者:魏文定 鄂海红 王曦 宋美娜 宿兴辉 WEI Wen-ding;E Hai-hong;WANG Xi;SONG Mei-na;SU Xing-hui

作者机构:北京邮电大学计算机学院(国家示范性软件学院)北京100876 中国科学院信息工程研究所北京100085 联洋国融(北京)科技有限公司北京100088 

基  金:国家自然科学基金(62176026) 北京自然科学基金(M22009) 

出 版 物:《计算机技术与发展》 (Computer Technology and Development)

年 卷 期:2024年第34卷第2期

页      码:17-22页

摘      要:云原生数据湖已经成为数据管理和分析领域的研究热点,相关技术和应用也得到了广泛的关注和探索。数据湖部署存在着成本高、组件之间兼容性差等问题,存算不分离制约着数据湖平台延展性,缺乏完备的数据入湖体系容易引起数据湖沼泽的形成,导致用户无法从中提取数据价值。该文设计并实现了云原生数据湖服务平台,平台以Kubernetes为底层构建云原生环境,结合容器技术将数据湖组件镜像化,同时设计数据湖存算分离方案来提高数据湖平台的可扩展性和可移植性,并配合监控、组装生产线将镜像容器化,实现数据湖上云操作。并建立用户入湖作业与云原生计算引擎之间的桥梁,对入湖信息进行预处理,提供多类型作业以满足多元化入湖场景,以统一catalog的方式将数据写入数据湖中。实际运行结果表明,该平台既提高了数据湖平台的灵活性和可靠性,又确保了元数据和数据资产的规范性存储。

主 题 词:云原生 数据湖 大数据 生产线 数据湖上云 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.3969/j.issn.1673-629X.2024.02.003

馆 藏 号:203126051...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分