看过本文的还看了

相关文献

该作者的其他文献

文献详情 >一个轻量级分布式机器学习系统的设计与实现 收藏
一个轻量级分布式机器学习系统的设计与实现

一个轻量级分布式机器学习系统的设计与实现

作     者:宋匡时 李翀 张士波 SONG Kuangshi;LI Chong;ZHANG Shibo

作者机构:中国科学院计算机网络信息中心北京100190 中国科学院大学计算机科学与技术学院北京100190 

基  金:中国科学院“十三五”信息化重大专项“中国科学院科研教育态势感知服务”(XXH13504-03) 

出 版 物:《计算机工程》 (Computer Engineering)

年 卷 期:2020年第46卷第1期

页      码:201-207页

摘      要:为满足大规模机器学习系统高定制化、低耦合与低资源消耗的需求,设计并实现一个轻量级分布式机器学习系统。采用模块化分层设计并移植多种主流的机器学习与深度学习算法,同时提出参数服务器与动态Ring-AllReduce 2种可扩展梯度同步方案,对算法模型进行并行训练加速。实验结果表明,该系统对于稀疏与稠密模型均有较好的扩展性与稳定性,参数服务器训练可达到与单机相近的准确率与收敛效果,Ring-AllReduce也能在8节点模型上实现相对单节点模型6倍的训练加速。

主 题 词:机器学习系统 分布式系统 并行计算 集合通信 模块化 

学科分类:12[管理学] 1201[管理学-管理科学与工程类] 081104[081104] 08[工学] 0835[0835] 0811[工学-水利类] 0812[工学-测绘类] 

D O I:10.19678/j.issn.1000-3428.0054014

馆 藏 号:203880076...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分