看过本文的还看了

相关文献

该作者的其他文献

文献详情 >填充性载荷:减少集群资源浪费与深度学习训练成本的负载 收藏
填充性载荷:减少集群资源浪费与深度学习训练成本的负载

填充性载荷:减少集群资源浪费与深度学习训练成本的负载

作     者:杜昱 俞子舒 彭晓晖 徐志伟 DU Yu;YU Zishu;PENG Xiaohui;XU Zhiwei

作者机构:中国科学院计算技术研究所北京100190 中国科学院大学北京100049 

基  金:北京市自然科学基金(4212027) 国家自然科学基金(62072434) 

出 版 物:《计算机科学》 (Computer Science)

年 卷 期:2024年第51卷第9期

页      码:71-79页

摘      要:近年来,大模型在生物信息学、自然语言处理和计算机视觉等多个领域取得了显著成功。然而,这些模型在训练和推理阶段需要大量的计算资源,导致计算成本高昂。同时,计算集群中存在资源利用率低、任务调度难的供需失衡问题。为了解决这一问题,提出了填充性载荷的概念,即一种在计算集群中利用空闲资源进行计算的负载。填充性载荷的计算资源随时可能被其他负载抢占,但其使用的资源优先级较低,资源成本也相对较低。为此,设计了适用于填充性载荷的分布式深度学习训练框架PaddingTorch。基于阿里巴巴PAI集群的数据,使用4块GPU模拟了任务切换最频繁的4个GPU时间段上的作业调度情况,使用PaddingTorch将蛋白质复合物预测程序作为填充性载荷进行训练。训练时长为独占资源时训练时长的2.8倍,但训练成本降低了84%,在填充性载荷填充时间段内GPU资源利用率提升了25.8%。

主 题 词:深度学习 分布式训练 资源利用率 计算集群 编程框架 

学科分类:08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类] 

D O I:10.11896/jsjkx.231000222

馆 藏 号:203140226...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分