> 硕士毕业论文 > 30000字硕士毕业论文芯片结构的设计难点及其在非均匀缓存中的应用

30000字硕士毕业论文芯片结构的设计难点及其在非均匀缓存中的应用

论文类型:硕士毕业论文
论文字数:30000字
论点:指令,并行,体系结构
论文概述:

本文设计了分片式处理器上的非均匀一致的二级和一级Cache结构,并根据分片式处理器中特有的访存特征对非均匀一致的一级Cache的结构进行优化,提出了Load本地化执行模型,最终评估了模型的性能

论文正文:

第一章引言
1.1研究背景
从20世纪40年代第一台I-1计算机ENIAC(GoldstineH,1996)诞生时的每秒3_5条指令,到今天的高性能计算机(Top500,2009)的每秒1万亿次运算,计算机的性能在过去60年间增长了1万亿倍。一方面,如此巨大的进步来自十大技术进步,这些进步提供了越来越多、越来越快的晶体管资源。然而,另一方面,Ifn更重要。随着十种体系结构和编译技术的引入,这些晶体管资源被有效地转换成用户从FN可以看到的高性能,这反映在应用的加速上。因此,对于10岁的架构研究人员来说,所提出的架构方案是否有意义取决于10岁的人能否有效地利用流程开发的潜力,以换取同等比例的应用程序加速。这不仅取决于10层流程带来的硬件资源和限制,还取决于10个应用程序中可以发现的并行性的特征和数量。从技术角度来看,根据摩尔定律(汉密尔顿,1999),集成电路中可以容纳的晶体管数量每18个月左右翻一番。广义摩尔定律还包括:每18个月,晶体管的特征尺寸减小30070,开关速度加倍,Ifn处理器的性能每年可提高_50%至60070。对于前十条规则,业界普遍认为它们将在近十年内保持有效。Ifn的最后一篇文章受到质疑。近年来,随着特征尺寸的减小,晶体管开关延迟不再是处理器时钟周期的决定性因素,而增大的连接延迟反向fn占据了主导地位。因此,在原有架构下,只有晶体管数量的增加和切换速度的提高不能取代处理器性能的同样提高(Agarwal,2000,burger,2004,edenfeld,(2004)0从应用的角度来看,根据并行性的不同特征,学术界一般将其分为两大类:CSankaralingam,2006:指令级并行性(ILP,InstructionLevelParallelism),数据级并行性(DLP,DataLevelParallelism not II线程级并行性(TLP,ThreadLevelParallelism)。
顾名思义,指令级并行通过在十个级别上重叠不同指令的执行来实现更高的吞吐量。通常,它是通过每个周期可以处理的指令数量来衡量的。并行粒度相对较细。例如,对于一般的桌面应用程序,其中十个具有在指令级紧密相关的数据依赖和控制依赖。性能的提高主要体现在探索指令级并行性上。数据级并行性体现在大量数据处理的重叠中。例如,在多媒体和科学计算等应用程序中,对大量数据有统一的操作,因此存在大量的数据级并行性。Ifn线程级并行可以看作是粗粒度的指令级并行,它将不同指令段的执行重叠在十个级别上。本文的研究方向是探索在当前流程发展趋势下,如何在应用中进一步探索指令级并行性。10芯片处理器架构能够更好地适应未来进程开发中线路延迟的增长,Ifn非均匀缓存(Ifn non-uniform Cache)也是为了解决同样的线路延迟问题Ifn而诞生的。因此,本文设计并研究了两者的结合,并分别讨论了非均匀缓存在芯片处理器体系结构的一级和二级缓存中的应用和优化。
1.1.1片上延迟对提高指令级并行性的影响在过去几十年中,有两种主要技术用于开发指令级并行性。一是通过改进工艺和深化装配线来增加时钟频率。另一种是增加指令的吞吐量,即增加每个周期可以处理的指令数量(IPC)。传统的改进仪表板组合仪表(IPC)的技术分为两种类型:超标量CSuperScalar而非II VLIW (VLIW,甚长构造字)。前者依赖复杂的硬件机制来发现指令之间的依赖关系,动态调度指令,并提高指令执行的并行性。Ifn,后者,将指令调度传递给编译器进行静态完成。虽然它可以避免前者所要求的复杂硬件结构,但要准确判断指令之间的依赖关系是不可能的。它必须遵循保守策略,并将牺牲大量性能。因为FN在行业中一直胜过VLIW技术,并且在过去几十年中极大地提高了处理器的性能。然而,Ifn,近年来,随着技术的进步和特征尺寸的减小,晶体管开关延迟不再是处理器时钟周期的决定性因素,而增加的连接延迟反fn占据了主导地位。
一些研究(Agarwal,2004,Ho,2001)表明在3_5nmI技术下,使用自由基13。SGHz主频,在400mm2芯片上,信号传输在一个周期内只能覆盖芯片面积的10%,Ifn访问64KB数据缓存需要7个周期。因此,当一个周期中的大部分延迟由十条线路传输,并且Ifn不由逻辑门切换时,通过增加逻辑门fn的切换速度来增加时钟频率的传统方法不再可行,并且流水线的深度已经达到极限(Agarwal,2000)。同时,许多超标量技术(如动态指令调度、多传输和推理执行)大多采用复杂的全局结构。当全局信号不能在一个周期内传输时,这些全局结构也面临着线路延迟Ifn扩展的挑战。
1.1.2芯片处理器架构的提出针对上一节中片上延迟对ILP的影响,当前学术界提出了一种芯片处理器架构(TPA,TiledProcessorArchitecture)。该结构的核心思想在第十条:传统复杂的全局结构分为许多简单且重复的单个维吾尔模块(称为平铺、银行、单位网格等)。),Ifn相对独立的模块被分发以完成它们的本地操作(Nagarajan,2001,Burger,2004)。在基于芯片架构的假设下,大量的通信被限制在简单的模块中,这减少了全局流量,并减少了Ifn Shaw的弱线路延迟的影响。同时,通过模块的复制,可以充分利用芯片顶部增加的晶体管资源,达到性能扩展的目的。因此,这种结构的假设很好地适应了技术的发展。然而,Ifn芯片结构也有设计困难,主要表现在以下两个方面。
参考
[1]阿加瓦尔五世,赫里什克什·米·斯,科克勒·西,等人,2000年。时钟速率与仪表板组合仪表:传统微体系结构的末日[。ISCA\'00:第27届国际学术研讨会论文集
[2]汉堡店,古德曼出版社,2004年。十亿晶体管架构:反复出现[。电脑,37(3),22-28。
[3]汉堡店,科克勒西,麦金利,等人,2004年。随着边缘架构扩展到硅的末端[。电脑,37(7),44-55
[4]奇什蒂兹,鲍威尔·梅德,维贾古玛·泰恩,2003年。高性能、高能效、非均匀缓存体系结构的距离关联性[。微36:第36届美国电气工程师学会会议录
概要4-5
摘要5-6
第一章导言15-20
1.1研究背景15-18
1.1.1片内延迟对提高指令级并行性的影响16
1.1.2芯片处理器架构建议16-17
1.1.3非统一高速缓存的呈现17-18
1.2 TPA对NUCA的约束力的重要性18
1.3文件的主要工作18-19
1.4纸张结构19-20
第二章相关工作20-35
2.1芯片处理器架构20-22
2.1.1数据取决于显式编码指令集20
2.1.2静态放置和动态启动模式20-21
2.1.3以超级块为原子21-22的执行模型
2.2芯片处理器微体系结构22-28
2.2.1分布式控制协议23-24
2.2.2分布式一级缓存24-28
2.2.2.1分布式加载/存储队列25-26
2.2.2.2分布式访问依赖性预测器26-28
2.3非统一缓存结构28-31
2.3.1静态NUCA结构29
2.3.2动态NUCA结构29-31
2.3.2.1银行集合计划30
2.3.2.2 NURAPID计划30-31
2.4非均匀缓存结构的应用31-33
2.4.1片上多处理器的L2缓存结构31-33
2.4.1.1分享计划32-33
.........................................................................
第三章非均匀L2缓存的设计35-54
3.1总体结构35-36
3.2静态数据映射方法36-37
3.3片上网络互连37-43
3.3.1路由器设计38-40
3.3.1.1虚拟频道38-39
3.3.1.2路由交换39-40
3.3.1.3流量控制器40
3.3.1.4竞争仲裁机制40
3.3.2网络地址翻译40-42
....................................................................