文献详情 >填充性载荷:减少集群资源浪费与深度学习训练成本的负载收藏

填充性载荷:减少集群资源浪费与深度学习训练成本的负载

作者：杜昱俞子舒彭晓晖徐志伟 DU Yu;YU Zishu;PENG Xiaohui;XU Zhiwei

作者机构：中国科学院计算技术研究所北京100190 中国科学院大学北京100049

基　　金：北京市自然科学基金(4212027) 国家自然科学基金(62072434)

出版物：《计算机科学》 (Computer Science)

年卷期：2024年第51卷第9期

页码：71-79页

摘要：近年来,大模型在生物信息学、自然语言处理和计算机视觉等多个领域取得了显著成功。然而,这些模型在训练和推理阶段需要大量的计算资源,导致计算成本高昂。同时,计算集群中存在资源利用率低、任务调度难的供需失衡问题。为了解决这一问题,提出了填充性载荷的概念,即一种在计算集群中利用空闲资源进行计算的负载。填充性载荷的计算资源随时可能被其他负载抢占,但其使用的资源优先级较低,资源成本也相对较低。为此,设计了适用于填充性载荷的分布式深度学习训练框架PaddingTorch。基于阿里巴巴PAI集群的数据,使用4块GPU模拟了任务切换最频繁的4个GPU时间段上的作业调度情况,使用PaddingTorch将蛋白质复合物预测程序作为填充性载荷进行训练。训练时长为独占资源时训练时长的2.8倍,但训练成本降低了84%,在填充性载荷填充时间段内GPU资源利用率提升了25.8%。

主题词：深度学习分布式训练资源利用率计算集群编程框架

学科分类：08[工学] 0835[0835] 081202[081202] 0812[工学-测绘类]

D　O　I：10.11896/jsjkx.231000222

馆藏号：203140226...

维普期刊资源

目录详情 | 试阅读 | 预约结果

读者评论与其他读者分享你的观点

学校读者

用户名:未登录

我的评分

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

填充性载荷:减少集群资源浪费与深度学习训练成本的负载

读者评论与其他读者分享你的观点

收藏书架

请选择收藏分类：

选择图书所在场馆

申请转借

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

看过本文的还看了

相关文献

该作者的其他文献

填充性载荷:减少集群资源浪费与深度学习训练成本的负载

读者评论 与其他读者分享你的观点

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

选择图书所在场馆

申请转借

高级检索表达式检索

高级检索表达式检索

读者评论与其他读者分享你的观点

请选择收藏分类：