看过本文的还看了

相关文献

该作者的其他文献

文献详情 >低资源集群中的大语言模型分布式推理技术 收藏
低资源集群中的大语言模型分布式推理技术

低资源集群中的大语言模型分布式推理技术

作     者:冯文佼 李宗航 虞红芳 FENG Wenjiao;LI Zonghang;YU Hongfang

作者机构:电子科技大学成都611731 

出 版 物:《中兴通讯技术》 (ZTE Technology Journal)

年 卷 期:2024年第30卷第2期

页      码:43-49页

摘      要:探索了一种并行能力更强、具有更好兼容性的大语言模型(LLM)分布式推理范式。该范式专为弱算力、小显存环境设计。同时面向主机内外差异带宽,设计了基于通信树的高效All-Reduce组通信技术;针对小显存集群,设计了细粒度的显存管理与调度技术。最后,基于这些关键技术,构建了一套针对资源受限场景的LLM推理软件系统,旨在用数量有限的低资源设备,最大化能推理的LLM,同时通过优化通信策略与计算调度加速分布式推理。实验证明,在应用上述技术后,本方案的首词元生成延迟降低34%~61%,每秒生成词元吞吐量提升52%~150%,显存占用降低61%。

主 题 词:LLM分布式推理范式 资源受限场景 优化通信策略与计算调度 

学科分类:081203[081203] 08[工学] 0835[0835] 0812[工学-测绘类] 

D O I:10.12142/ZTETJ.202402007

馆 藏 号:203127764...

读者评论 与其他读者分享你的观点

用户名:未登录
我的评分