文献检索-宁波市创意产业特色资源库

基于无裁剪图形流水线的三维图形处理器: 收藏
分享
引用; 《高技术通讯》2024年第7期34卷 681-691页; 作者：赵皓宇王重熙宋鹏皓章隆兵处理器芯片全国重点实验室(中国科学院计算技术研究所)北京100190 中国科学院大学北京100049; 传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采...; 传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采用高效的无裁剪图形流水线结构,消除了裁剪所带来的硬件开销和性能损耗。此外,本文为该图形处理器设计了一个符合IEEE-754标准的三维向量内积(DP3)计算单元,用于固定功能流水线,以提高图形处理器的性能,并消除图形渲染过程中浮点乘加操作的误差,增强了图形处理器的图形渲染鲁棒性。该三维图形处理器每秒能够处理500 M个顶点和8 G个纹素,功耗为1000 mW,采用了28 nm工艺,面积为7.92 mm^(2)。实现结果表明,与之前的工作相比,本文设计的图形处理器的性能-功耗比提高了27.8%。; 来源：详细信息评论

一种基于图形处理器压缩结构的预取结构设计: 收藏
分享
引用; 《高技术通讯》2022年第4期32卷 351-357页; 作者：赵士彭张立志章隆兵计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100049; 图形处理器(GPU)访存利用率已经成为影响其性能的关键瓶颈之一。在处理器设计中,访存的预取结构设计成为了提高访存利用率的主要方法之一。结合图形处理器的访存密集的特点,在提高预取性能的前提下,减小影响图形流水线正常效率成为热门...; 图形处理器(GPU)访存利用率已经成为影响其性能的关键瓶颈之一。在处理器设计中,访存的预取结构设计成为了提高访存利用率的主要方法之一。结合图形处理器的访存密集的特点,在提高预取性能的前提下,减小影响图形流水线正常效率成为热门的研究方向。本文基于一种图形处理器无损压缩的结构,提出了一套图形处理器的预取结构设计。本预取结构设计可在访存密集型的图形流水线中有效提高访存利用率,并不影响当前图形流水线的效率。实验结果表明,在Godson GPU图形处理器平台上,与传统预取结构相比,针对访存密集型测试程序,cache命中率可以提高15%以上。针对访存空闲的测试程序,该设计不会对流水线产生负面影响。; 来源：详细信息评论

基于社区结构的图数据预取器设计: 收藏
分享
引用; 《高技术通讯》2022年第12期32卷 1251-1261页; 作者：李策章隆兵计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院大学计算机学院北京100190; 由于图数据规模庞大且结构不规则,图应用运行时会产生大量高延迟内存访问,大幅度降低了通用处理器的运行效率。本文采用软硬件结合的方式设计了图计算专用预取器,利用图数据访存特点以及社区结构的存储规律,通过对图数据进行混合预取,...; 由于图数据规模庞大且结构不规则,图应用运行时会产生大量高延迟内存访问,大幅度降低了通用处理器的运行效率。本文采用软硬件结合的方式设计了图计算专用预取器,利用图数据访存特点以及社区结构的存储规律,通过对图数据进行混合预取,缩短了图计算访存的延迟,在含有较多社区的图数据集上获得了显著的性能收益。在不同图算法与图数据集上的实验表明,该预取器相对于无预取情况、流式预取器及传统图数据预取器,分别实现了65%~176%、6%~21%和4%~18%的性能提升。; 来源：详细信息评论

面向训练的卷积神经网络加速器设计: 收藏
分享
引用; 《高技术通讯》2023年第6期33卷 568-580页; 作者：杨灿王重熙章隆兵计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100049; 随着深度神经网络的广泛应用,对神经网络模型的训练速度需求也不断增长,各类面向训练的加速器应运而生。然而,在训练过程的各阶段,同一个层展现出了巨大的计算差异,计算差异性使得单一数据流结构的加速器在某些阶段的处理上达不到最高...; 随着深度神经网络的广泛应用,对神经网络模型的训练速度需求也不断增长,各类面向训练的加速器应运而生。然而,在训练过程的各阶段,同一个层展现出了巨大的计算差异,计算差异性使得单一数据流结构的加速器在某些阶段的处理上达不到最高的效率。而图形处理器(GPU)等通用性设计通常不能充分地利用各阶段操作的特性使得利用率较低。为了解决这个问题,本文针对卷积神经网络(CNN)训练不同阶段的操作,分别提出了高效的执行方案,设计了一个统一的加速器处理单元硬件结构,能够将所有阶段的执行方案高效地映射到其上运行,并以这个统一的处理单元为基础实现了一个高效的支持训练的卷积神经网络加速器。实验结果显示,基于4个常用的卷积神经网络模型,卷积层训练的前向过程、反向过程的运算资源利用率分别达到了77.6%、67.3%,相比于现有主流的利用Tensor核心加速深度学习任务的GPU,运算资源利用率提高了45.1%和41.7%。; 来源：详细信息评论

一种面向嵌入式图形处理器的访存子系统结构设计: 收藏
分享
引用; 《高技术通讯》2022年第2期32卷 152-160页; 作者：赵士彭张立志章隆兵计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100049; 嵌入式图形处理器(GPU)随着访存数据量越来越大,访存子系统在性能、面积及功耗等方面的瓶颈已经日益凸显。针对图形处理器的数据特点及访存需求,考虑到嵌入式图形处理器面积及功耗的约束,结合Godson GPU架构平台,提出了一种面向嵌入式...; 嵌入式图形处理器(GPU)随着访存数据量越来越大,访存子系统在性能、面积及功耗等方面的瓶颈已经日益凸显。针对图形处理器的数据特点及访存需求,考虑到嵌入式图形处理器面积及功耗的约束,结合Godson GPU架构平台,提出了一种面向嵌入式图形处理器的访存子系统结构设计。该设计主要针对图形处理流水线的访存特点,对cache的结构进行了优化,并提出了一种基于链表方式的结构,提高了访存的效率,减少了面积且降低了功耗。为了使访存子系统适配并行图形流水线,提出了一种屏幕分区方法,可以在消除cache的一致性问题的同时,使访存子系统的负载更加均衡。该设计为嵌入式图形处理器的访存子系统设计提供了借鉴。; 来源：详细信息评论

基于软硬协同的程序运行时安全保护机制: 收藏
分享
引用; 《计算机学报》2023年第1期46卷 180-201页; 作者：李亚伟章隆兵张福新王剑计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100049; 内存篡改(Memory Corruption)是现代各类攻击的主要原因,通过修改内存中的数据,达到劫持控制流的目的.使用不安全语言暴露内存细节给开发者,导致很多的敏感数据可以任意被修改.现有的解决方案针对安全攻击主要包括两个方面,软件检查和...; 内存篡改(Memory Corruption)是现代各类攻击的主要原因,通过修改内存中的数据,达到劫持控制流的目的.使用不安全语言暴露内存细节给开发者,导致很多的敏感数据可以任意被修改.现有的解决方案针对安全攻击主要包括两个方面,软件检查和硬件机制保护.基于软件检查的机制虽然灵活,但是存在严重的性能问题.基于硬件的方法可以大幅度解决性能问题,而且要比软件的方式安全性更高.因此提出了很多的硬件相关的保护机制.但现有的硬件机制大都仅仅针对单一的攻击,而且缺乏灵活性.在本文中,我们提出了一种软硬件结合的解决方案,通过对程序运行时敏感数据进行加密隐藏,在访问这些敏感数据时进行解密,然后做安全检查,判断敏感数据是否被修改.在硬件实现上,本文设计了安全的Load和Store类指令,以及硬件加密解密模块.同时在软件编译器上对此类安全指令支持,针对不同的使用场景提出了两种安全策略:全局约束策略和上下文执行约束策略.相比于前者,后者提供了更加严格的约束,可适用于安全度更高的程序保护.本文的安全机制能够抵御多种攻击向量,比如针对CFI类攻击,最近的DOP攻击,GOT表和虚函数表指针感染攻击等.还可以抵御缓冲区溢出类的攻击,支持信息隐藏等.通过SPEC2006的测试程序表明,本文提出的安全机制性能损耗仅仅为4.5%.; 来源：详细信息评论

片上实时功耗监控与估测的分析设计: 收藏
分享
引用; 《计算机辅助设计与图形学学报》2010年第11期22卷 2053-2060页; 作者：段玮章隆兵中国科学院计算机系统结构重点实验室北京100190 中国科学院计算技术研究所北京100190 中国科学院研究生院北京100049 北京龙芯中科技术服务中心有限公司北京100190; 为了给操作系统提供实时的芯片热点和功耗统计信息,以便进行快速、准确的实时功耗管理,基于龙芯2号处理器核,提出一个基于门控时钟统计的实时功耗监控系统.通过记录处理器门控时钟的翻转信息来获得芯片热点分布状态,并使用在芯片设计流...; 为了给操作系统提供实时的芯片热点和功耗统计信息,以便进行快速、准确的实时功耗管理,基于龙芯2号处理器核,提出一个基于门控时钟统计的实时功耗监控系统.通过记录处理器门控时钟的翻转信息来获得芯片热点分布状态,并使用在芯片设计流程中由门级网表仿真而建立的功耗模型进行硬件计算,最终获得向操作系统提供的实时功耗数据.文中提出的实时功耗监控系统具有硬件集成、结构无关、快速、自身开销小、对处理器性能影响小、准确性高等优点.实验结果表明,将该实时功耗监控系统应用在FPGA平台上的功耗估测速度比传统仿真速度提高近40倍,精确度与Synosys公司的EDA工具测量相比可以保持在5%以内.; 来源：详细信息评论

基于层间融合的神经网络访存密集型层加速: 收藏
分享
引用; 《高技术通讯》2023年第8期33卷 823-835页; 作者：杨灿王重熙章隆兵处理器芯片国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100049; 近年来,随着深度神经网络在各领域的广泛应用,针对不同的应用场景,都需要对神经网络模型进行训练以获得更优的参数,于是对训练速度的需求不断提升。然而,现有的研究通常只关注了计算密集型层的加速,忽略了访存密集型层的加速。访存密集...; 近年来,随着深度神经网络在各领域的广泛应用,针对不同的应用场景,都需要对神经网络模型进行训练以获得更优的参数,于是对训练速度的需求不断提升。然而,现有的研究通常只关注了计算密集型层的加速,忽略了访存密集型层的加速。访存密集型层的操作主要由访存带宽决定执行效率,单独提升运算速度对性能影响不大。本文从执行顺序的角度出发,提出了将访存密集型层与其前后的计算密集型层融合为一个新层执行的方式,将访存密集型层的操作作为对融合新层中输入数据的前处理或输出数据的后处理进行,大幅减少了访存密集型层在训练过程中对片外内存的访问,提升了性能;并针对该融合执行方案,设计实现了一个面向训练的加速器,采用了暂存前处理结果、后处理操作与计算密集型层操作并行执行的优化策略,进一步提升了融合新层的训练性能。实验结果显示,在面积增加6.4%、功耗增加10.3%的开销下,训练的前向阶段、反向阶段的性能分别实现了67.7%、77.6%的提升。; 来源：详细信息评论

一种快速的滑动标记缩并垃圾收集算法: 收藏
分享
引用; 《电子学报》2008年第10期36卷 1955-1960页; 作者：邹琼章隆兵中国科学技术大学计算机科学与技术系安徽合肥230027 中国科学院计算技术研究所计算机系统结构重点实验室北京100190; Java语言完全面向对象,因此对象局部性是衡量Java虚拟机性能的重要指标.在Java虚拟机中,由垃圾收集算法负责检测并且回收不再使用的对象,它直接影响着Java程序的性能.保持对象分配序能够提供最佳的局部性.滑动标记缩并算法正是基于这一...; Java语言完全面向对象,因此对象局部性是衡量Java虚拟机性能的重要指标.在Java虚拟机中,由垃圾收集算法负责检测并且回收不再使用的对象,它直接影响着Java程序的性能.保持对象分配序能够提供最佳的局部性.滑动标记缩并算法正是基于这一原则,但是传统上的设计使得算法的效率很低.本文提出一种快速的滑动标记缩并算法,它通过位图、活块池和块内偏移表来简化算法,大大的降低了开销.实验结果表明,快速的滑动标记缩并算法使得标准工业测试程序SPECJVM98的性能在Pentium4上有不同程度的提高,最高达到8.9%;同时程序的局部性也优于线性标记缩并算法,与深度遍历序相比,DTLB(Data Translation Lookaside Buffer)与2级Cache失效率改善最多分别为11%和13.6%.; 来源：详细信息评论

高性能CPU电源Droop检测优化设计实现: 收藏
分享
引用; 《高技术通讯》2022年第9期32卷 894-902页; 作者：杨丽琼章隆兵肖俊华王剑计算机体系结构国家重点实验室(中国科学院计算技术研究所)北京100190 中国科学院计算技术研究所北京100190 中国科学院大学北京100049; 高性能中央处理器(CPU)进入到纳米工艺设计时代,集成度和性能大幅度提高的同时,功耗和时钟之间的平衡优化已经成为当前面临的主要问题。物理供电寄生阻抗增加明显,功耗急速增加过程导致电源网络动态压降明显,抑制了主频进一步提高。本...; 高性能中央处理器(CPU)进入到纳米工艺设计时代,集成度和性能大幅度提高的同时,功耗和时钟之间的平衡优化已经成为当前面临的主要问题。物理供电寄生阻抗增加明显,功耗急速增加过程导致电源网络动态压降明显,抑制了主频进一步提高。本文提出了一种基于全数字快速高精度Droop Sensor的供电监测优化方法。该方法采用易于集成于处理器核数字域内的单数字供电Droop Sensor进行本地供电实时监测。当Droop Sensor检测到电压快速垂降时,实时指导所在处理器核的时钟域进行时钟降频,帮助处理器度过低压危险时期,待垂降结束后再恢复正常的时钟频率。实现了局部压降的针对性时钟优化,避免了整体功耗性能损失。本文采用12 nm数字工艺实现了Droop Sensor设计。仿真结果表明,该传感器可在100 ps内进行一阶Droop的快速响应,帮助CPU度过瞬间大幅度的压降期;高阶Droop响应的阈值调节精度可达3%,支持CPU的供电水平多阈值控制。; 来源：详细信息评论

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案：

收藏书架

请选择收藏分类：

检索条件订阅

申请转借

引用

高级检索 表达式检索

时间限定

文献类型

馆藏选择

核心期刊

语言

高级检索 表达式检索

文献类型

帮助

文字说明：

检索规则说明：

检索范例：

限定检索结果

保存检索档案

请选择保存的检索档案： 新增检索档案 确定 取消

收藏书架

请选择收藏分类： 新增自定义分类 确定 取消

检索条件订阅

申请转借

引用

高级检索表达式检索

高级检索表达式检索

请选择保存的检索档案：

请选择收藏分类：