看过本文的还看了

相关文献

该作者的其他文献

文献详情 >基于异构硬件的LSTM训练系统 收藏
基于异构硬件的LSTM训练系统

基于异构硬件的LSTM训练系统

作     者:黄为新 胡伟方 曹雪娇 石宣化 HUANG Weixin;HU Weifang;CAO Xuejiao;SHI Xuanhua

作者机构:华中科技大学计算机科学与技术学院湖北武汉430074 华中科技大学大数据技术与系统国家地方联合工程研究中心服务计算技术与系统教育部重点实验室湖北武汉430074 

基  金:新一代人工智能国家科技重大专项(No.2020AAA0108501) 湖北省重大攻关项目(JD)(No.2023BAA024) 

出 版 物:《大数据》 (Big Data Research)

年 卷 期:2024年第10卷第4期

页      码:172-188页

摘      要:在大数据时代,以LSTM为代表的深度神经网络模型具有处理海量数据的能力,在语言处理、语音识别、时序数据预测等领域表现优异。随着模型复杂度的提高,训练成本大幅提升。现有的LSTM训练系统使用了算子融合、多流等加速手段,但忽略了训练算子内部计算的可并行性,导致计算资源的利用率低,整体耗时长。为此,设计了基于细粒度模型划分和多流并行调度方法的LSTM训练系统TurboLSTM,在英伟达GPU和国产昇腾NPU这两种异构硬件上构建的全新底层训练算子实现了任务对计算资源的合理利用。与已有训练系统相比,在GPU上TurboLSTM的单算子训练时间缩短了23%,模型的整体训练时间缩短了17%,在NPU上TurboLSTM的单算子训练时间缩短了15%,且对计算资源的利用率显著提高。这表明提出的加速方案是高效的,具有良好的泛化能力。

主 题 词:LSTM 训练加速 细粒度并行 多流调度 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

D O I:10.11959/j.issn.2096-0271.2024053

馆 藏 号:203134230...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分