限定检索结果

检索条件"主题词=并行优化"
53 条 记 录,以下是1-10 订阅
视图:
排序:
多核数字信号处理卷积算法并行优化
收藏 引用
《国防科技大学学报》2024年 第1期46卷 103-112页
作者:许金伟 王庆林 李娅琳 姜晶菲 高蕾 李荣春 李东升国防科技大学计算机学院湖南长沙410073 国防科技大学并行与分布计算全国重点实验室湖南长沙410073 
针对国防科技大学自主研发的异构多核数字信号处理(digital signal processing, DSP)芯片的特征以及卷积算法自身特点,提出了一种面向多核DSP架构的高性能多核并行卷积实现方案。针对1×1卷积提出了特征图级多核并行方案;针对卷积...
来源:详细信息评论
神威·太湖之光平台上宇宙N体模拟中FMM的并行优化
收藏 引用
《山东科技大学学报(自然科学版)》2024年 第3期43卷 105-113页
作者:韩承磊 梁建国 傅游 叶雨曦 花嵘 李倩倩山东科技大学计算机科学与工程学院山东青岛266590 曲阜师范大学计算机学院山东日照273165 
宇宙学模拟是典型的N体问题,是高性能计算中具有代表性和挑战性的问题之一。本研究在神威·太湖之光平台上对天文N体模拟软件PhotoNs-2中的计算主体——快速多极子方法(fast multipole method,FMM)进行移植和性能优化。针对目前研...
来源:详细信息评论
基于GPU的LBM迁移模块算法优化
收藏 引用
《计算机工程》2024年 第2期50卷 232-238页
作者:黄斌 柳安军 潘景山 田敏 张煜 朱光慧齐鲁工业大学(山东省科学院)山东省计算中心(国家超级计算济南中心)山东济南251013 济南超级计算技术研究院高性能计算实验室山东济南251013 哈尔滨工业大学能源科学与工程学院黑龙江哈尔滨150001 
格子玻尔兹曼方法(LBM)是一种基于介观模拟尺度的计算流体力学方法,其在计算时设置大量的离散格点,具有适合并行的特性。图形处理器(GPU)中有大量的算术逻辑单元,适合大规模的并行计算。基于GPU设计LBM的并行算法,能够提高计算效率。但...
来源:详细信息评论
平面电机散热器热流建模与尺寸-拓扑并行优化设计
收藏 引用
《清华大学学报(自然科学版)》2022年 第3期62卷 400-407页
作者:赵家琦 张鸣 朱煜 成荣 李鑫 王磊杰 胡楚雄清华大学机械工程系摩擦学国家重点实验室精密超精密制造装备及控制北京市重点实验室北京100084 
为了提高平面电机水冷散热器热流性能,该文构建了散热器热流模型并开展了"结构尺寸-流道拓扑"并行优化设计。首先,构建了散热器3层热流模型,该模型囊括了盖板与流固混合层的流动/传热耦合效应以及散热器厚度方案对热流场的影...
来源:详细信息评论
一种基于HLS的目标跟踪IP核设计方法
收藏 引用
《信息技术与信息化》2024年 第3期 87-90页
作者:冯庭燕 齐宇心航空工业西安航空计算技术研究所陕西西安710076 
视频目标跟踪一直是计算机视觉领域非常重要的一个研究分支,多种目标跟踪算法都有着非常亮眼的跟踪效果。但为了适应更多应用场景,目标跟踪算法的结构不断复杂化,计算量的增加使跟踪精度高的算法难以保证实时性的要求。针对这一问题,提...
来源:详细信息评论
冷连轧轧制力深度神经网络模型泛化能力并行优化
收藏 引用
《机械设计与制造》2023年 第8期 171-174页
作者:吴爽 闫奕 李爽 李峰南阳职业学院计算机与信息工程学院河南南阳474550 南阳职业学院机械与汽车工程学院河南南阳474550 河南理工大学机械与动力工程学院河南焦作450000 
为了更好调控冷连轧板厚参数,设计了一种冷连轧轧制力深度神经网络模型,增强了冷连轧模型的控制效果。选择2030冷连轧结构进行研究,对多输入多输出(MIMO)深度神经网络(DNN)进行预处理,针对多线程CPU与GPU实施了优化,对比了神经网络模型...
来源:详细信息评论
面向GPU架构的CCFD-KSSolver组件设计和实现
收藏 引用
《数据与计算发展前沿》2024年 第1期6卷 68-78页
作者:张浩源 马文鹏 袁武 张鉴 陆忠华中国科学院计算机网络信息中心北京100083 中国科学院大学北京100049 信阳师范学院河南信阳464000 
【应用背景】在如计算流体力学和材料科学等高性能应用领域中,大型稀疏线性方程的求解直接影响高性能应用的效率与精度。异构众核已成为现代超算系统体系结构的重要特征和发展趋势。【方法】本文面向CPU+GPU异构超算系统设计并实现了线...
来源:详细信息评论
快速准确的光流法运动目标检测
收藏 引用
《软件导刊》2024年 第3期23卷 134-141页
作者:王一超 鲁芹 王迎雪 吴孟伟齐鲁工业大学(山东省科学院)计算机科学与技术学部山东济南250353 
使用经典HS光流法对视频图像中的运动目标进行识别与检测时存在环境噪声多、检测效率低等问题。为此,对光流法进行改进。首先设计新的判定方法降低求解光流的迭代次数,减少算法执行时间;然后结合边缘检测等算法设计满足精度约束的算法,...
来源:详细信息评论
SURF算法并行优化及硬件实现
收藏 引用
《计算机辅助设计与图形学学报》2015年 第2期27卷 256-263页
作者:赵春阳 赵怀慈中国科学院沈阳自动化研究所光电信息研究室沈阳110016 中国科学院光电信息处理重点实验室沈阳110016 辽宁省图像理解与视觉计算重点实验室沈阳110016 中国科学院大学北京100049 
加速鲁棒特征(SURF)算法计算复杂度高、硬件实现需要大量的逻辑和存储资源, 且描述符构建过程难以并行实现、无法满足实时性要求. 针对上述问题, 提出一种SURF 算法的并行优化方法, 并给出基于FPGA 器件的硬件实现方法. 首先采用圆形...
来源:详细信息评论
基于高性能计算机的并行优化技术科普探析
收藏 引用
《科技视界》2023年 第5期 153-156页
作者:吴斌 彭辉 何腾蛟中国核动力研究设计院核反应堆系统设计技术重点实验室四川成都610213 
针对高性能计算机上核反应堆大规模并行计算程序的不稳定运行和内存空间报错等并行运行问题,以核反应堆蒙特卡罗分析程序为例从高性能计算机的系统参数配置、高速网络系统和并行文件系统等方面进行了并行优化研究。选取蒙特卡罗分析程...
来源:详细信息评论
聚类工具 回到顶部