还剩48页未读,继续阅读
本资源只提供10页预览,全部文档请下载后查看!喜欢就下载吧,查找使用更方便
文本内容:
计算机组成原理欢迎来到清华大学国家精品课程《计算机组成原理》,这是计算机科学领域的核心基础课程本课程将系统介绍计算机硬件系统的基本组成、工作原理、设计方法和发展趋势作为年最新教学内容,我们将从计算机系统概论、数据表示与运算、指2025令系统、设计等方面,全面深入地探讨计算机组成的各个方面,帮助学CPU生建立完整的计算机系统认知体系通过本课程的学习,你将能够理解计算机硬件的工作原理,掌握计算机设计的基本概念和方法,为进一步学习计算机体系结构、操作系统、编译原理等课程奠定坚实基础课程概述教学大纲与学习目标考核方式与评分标准本课程涵盖计算机组成的各个课程评分由平时作业、20%关键方面,包括计算机系统概实验报告、期中考试30%论、数据表示与运算、指令系和期末考试组成20%30%统、设计、存储系统、所有作业和实验必须独立完成,CPU总线系统以及输入输出系统等抄袭将导致该项目零分出勤学习目标是使学生全面理解计率低于将无法获得本课80%算机工作原理,掌握计算机系程学分统设计的基本方法参考教材与学习资源主要参考书《计算机组成与设计硬件软件接口》第版,《计/5算机体系结构量化研究方法》第版辅助学习资源包括在线视频6课程、实验指导书和平台上的补充材料MOOC第一部分计算机系统概论冯诺依曼体系结构·由约翰冯诺依曼于年提出,奠定了现代计算机的基础架构其··1945核心特点包括存储程序概念、程序与数据共享存储空间、串行指令执行方式该架构将计算机分为运算器、控制器、存储器、输入设备和输出设备五大部分现代计算机系统层次现代计算机系统由多个层次组成,包括硬件层、微架构层、指令系统架构层、操作系统层、编程语言层和应用层每一层都为上层提供服务,同时隐藏下层的复杂性,形成清晰的抽象层次结构性能评价指标计算机性能评价涉及多种指标,包括响应时间、吞吐量、、MIPS等这些指标从不同角度反映计算机系统的性能特性,使我们能FLOPS够客观地比较不同系统的性能优劣计算机系统基本组成处理器CPU计算机的大脑,负责指令执行和数据处理存储器系统存储程序和数据的层次化系统输入输出设备/实现计算机与外部世界的信息交换系统总线连接各个部件的通信通道现代计算机系统由这四个基本部分紧密协作形成完整的工作系统处理器作为核心部件,通过系统总线与存储器进行频繁的数据交换,同时通过输入输出设备与外部环境进行交互这些部件的协同工作使得计算机能够执行各种复杂的计算任务/计算机性能评价指标响应时间与吞吐量与指标CPI MIPS响应时间表示完成单个任务所需每条指令的平均时钟周期数CPI的时间,是从用户角度测量性能反映了指令执行的效率每秒百的重要指标吞吐量则表示单位万条指令数则综合考虑了MIPS时间内完成的任务数量,常用于时钟频率和,是一种常用的CPI评估系统处理大量任务的能力性能度量标准,但比较不同架构这两个指标通常是相互关联的,时需谨慎使用但优化方向可能不同定律及应用Amdahl定律用于预测系统优化的理论上限,核心思想是系统性能提Amdahl升受限于不可优化部分的比例该定律在并行计算、系统升级决策中有广泛应用,帮助确定最有效的优化方向计算机系统层次结构硬件层次结构包括电子电路、逻辑门、功能部件软件层次结构包括操作系统、编译器、应用程序指令系统结构ISA硬件与软件的接口,定义指令集和编程模型微体系结构指令执行的内部实现方式计算机系统的层次结构使得复杂系统可以被分解为相对独立的层次,每一层都为上层提供服务,并隐藏下层实现的复杂性这种结构使得不同层次可以独立演化,只要保持接口稳定,就能保证整个系统的兼容性指令系统结构作为硬件与软件的分界面,是整个计算机系统中最关键的接口之一ISA第二部分数据的表示与运算进位计数制与基数转换原码、反码、补码表示浮点数表示与标准IEEE754计算机中常用的数制包括二进制、八进原码是最直观的有符号数表示法,但不浮点数采用科学计数法表示实数,IEEE制、十进制和十六进制基数转换是在便于运算反码是原码基础上对数值位定义了浮点数的表示格式、舍入规754不同进制之间转换数值表示的方法,包取反的表示法补码是计算机中最常用则、异常处理等内容,是目前最广泛采括任意进制转十进制、十进制转任意进的有符号数表示法,使得加减法统一,用的浮点数标准,包括单精度和双精度制以及不同进制之间的直接转换并消除了零的二义性问题两种主要格式定点数的表示与运算整数的二进制表示有符号数表示方法计算机中整数通常采用定点二进制形式包括原码、反码和补码三种表示法,其表示,小数点位置固定在最右端中补码最为常用算术运算原理溢出检测方法基于补码表示的加、减、乘、除运算实通过符号位变化检测溢出,包括加法溢现方法与原理出和减法溢出的不同判断条件浮点数表示与运算类型符号位指数位尾数位精度范围单精度位位位约位十进±×
32182371.18位制10^-38~±×
3.410^38双精度位位位约位十±×
6411152162.23位进制10^-308~±×
1.7910^308四精度位位位约位十±×
115112343.36位进制12810^-4932~±×
1.1810^4932标准定义了浮点数的表示格式,包含符号位、指数和尾数三部分规格化数确保尾数IEEE754的最高有效位为,以提高表示精度非规格化数用于表示接近零的小数,扩展了可表示范围1特殊值包括±、±和非数,用于处理特殊情况浮点运算存在舍入误差,精度受限,需0∞NaN要特别注意定点运算器设计加法器设计原理加法器是算术逻辑单元的核心部件,从最基本的半加器、全加器ALU到行波进位加法器、超前进位加法器,设计逐步优化以提高速度超前进位加法器通过并行计算进位信号,显著减少了延迟,但硬件复杂度增加乘法器设计与算法乘法运算比加法更复杂,可采用移位加法算法实现现代处理器中常用算法、华莱士树等优化方法来提高乘法运算性能阵列乘法Booth器利用并行加法器阵列提高速度,但面积和功耗较大除法器设计与算法除法是最复杂的基本算术运算,通常采用恢复余数法或不恢复余数法实现除法运算延迟较长,是算术运算中的性能瓶颈,因此现代处理器常采用迭代近似或查表等方法加速除法运算第三部分指令系统指令格式与类型指令由操作码和操作数地址组成,根据功能可分为数据传送指令、算术逻辑指令、控制转移指令等多种类型指令格式设计涉及字长、寻址方式、操作数数量等多种因素,直接影响程序的执行效率和存储空间利用率寻址方式寻址方式定义了如何确定操作数的有效地址,常见的有立即寻址、直接寻址、间接寻址、寄存器寻址等不同的寻址方式适用于不同的程序场景,丰富的寻址方式有助于提高代码的灵活性和执行效率与架构比较RISC CISC复杂指令集强调功能强大的复杂指令,而精简指令集则追求简单CISC RISC高效的基本指令二者在设计理念、指令数量、执行模式、编译优化等方面存在显著差异,各有优势,现代处理器常采用混合设计策略指令格式设计指令格式设计是指令系统架构的核心内容,需要平衡多种因素指令字长度可以是固定的或可变的,固定长度简化了取指机制,而可变长度提高了代码密度操作码设计需考虑指令数量和编码效率,常采用变长编码或扩展操作码技术地址码设计涉及寻址范围和寻址方式,直接影响程序的寻址能力和灵活性寄存器与立即数字段的设计关系到指令执行效率和程序优化空间指令寻址方式7+1-4常见寻址方式数量地址计算步骤现代处理器通常支持多种寻址方式以适应不从简单的直接寻址到复杂的间接变址寻址,同的编程需求计算步骤各不相同40%立即寻址使用比例在典型程序中,立即寻址是最常用的寻址方式之一指令寻址方式是确定指令操作数实际地址的方法立即寻址将操作数直接包含在指令中,无需访存,速度最快直接寻址在指令中给出操作数的绝对地址,简单但寻址范围受限间接寻址通过指令中的地址找到操作数的真实地址,增加了灵活性但需要额外的访存操作寄存器寻址使用寄存器内容作为操作数,速度快且指令短相对寻址、基址寻址和变址寻址通过不同方式计算有效地址,适合数组和数据结构访问指令集架构RISC-V发展历史源于年加州大学伯克利分校的研究项目,旨在创建开放、免费的2010指令集架构基本指令格式采用固定长度位指令格式,分为型、型、型、型、型和型32R IS BU J六种基本格式核心指令集和是基础整数指令集,包含约条指令,实现简单且功RV32I RV64I40能完备扩展指令集提供乘除法、原子操作、单双精度浮点等多种标准扩展MAF/D/指令系统设计趋势精简指令系统复杂指令系统设计理念强调指令简单规整、设计理念强调指令功能强大、RISC CISC流水线执行高效、编译器优化重要代码密度高、向后兼容性好代表代表架构包括、等,架构主要是系列,在桌面和服ARM RISC-V x86在嵌入式和移动设备领域占据主导务器市场占主导地位现代处CISC地位设计使处理器结构清晰,理器内部往往采用微架构,通RISC RISC功耗低,易于实现多发射和乱序执过硬件解码将复杂指令转换为简单行等高级技术微操作执行特殊领域扩展针对人工智能、密码学、多媒体处理等特定应用领域,处理器厂商推出了各种专用指令扩展,如的、的、的向量扩展等这Intel AVXARM NEONRISC-V些扩展大大提高了特定领域的计算效率,是处理器设计的重要发展方向第四部分设计单周期处理器CPU—数据通路设计构建处理器的功能部件(、寄存器堆、存储器等)及其互连结构,确保数据能ALU够在各部件间正确流动和处理数据通路是的骨架,决定了指令执行的物理路CPU径控制单元设计根据指令操作码生成控制信号,协调各功能部件的工作控制单元是的指挥中CPU心,决定数据通路中各部件的工作方式和时序时序与性能分析确定的时钟周期、分析关键路径延迟、评估指令执行性能单周期的时CPU CPU钟周期由最长指令的执行时间决定,这是其主要性能瓶颈单周期实例分析CPU通过具体实例详细分析单周期的工作原理、优缺点及适用场景尽管单周期设CPU计简单直观,但在现代处理器中已很少采用单周期基本结构CPU设计寄存器堆设计控制单元设计ALU算术逻辑单元是的核心计算部件,负寄存器堆包含多个通用寄存器,是中控制单元根据指令操作码和当前状态生成CPU CPU责执行各种算术和逻辑运算基本支访问速度最快的存储单元典型设计有两各种控制信号,协调数据通路中各部件的ALU持加减法、逻辑运算和比较运算,复杂个读端口和一个写端口,支持同时读取两工作在单周期中,控制单元通常采CPU还可能支持乘除法、浮点运算等高级个操作数并写回一个结果寄存器数量和用组合逻辑实现,根据指令操作码直接产ALU功能的设计直接影响的运算性组织方式是设计的重要部分,直接影生所有控制信号,设计简单但面积和功耗ALU CPUISA能和功能多样性响程序执行效率较大单周期指令执行CPU取指阶段从程序计数器指定的内存地址读取指令译码阶段解析指令内容,生成控制信号执行阶段执行运算,计算分支目标地址ALU访存阶段加载存储指令访问数据内存/写回阶段将结果写回寄存器堆在单周期中,每条指令在一个时钟周期内完成以上所有阶段这种设计简单直观,容易理解和实现,但效率较低,因为时钟周期必须足够长以完成最复杂指令的所有操CPU作不同类型的指令可能只需要部分阶段,例如,算术指令不需要访存阶段,而无条件跳转指令不需要计算和写回阶段ALU单周期性能分析CPU第五部分设计多周期处理器CPU—指令执行周期划分状态机控制设计数据通路复用多周期将指令执行过程分解为多个多周期的控制单元通常采用有限状多周期中的功能部件(如、存CPU CPU CPU ALU阶段,每个阶段在一个时钟周期内完成态机实现,根据当前状态和指令操作码储器)可以在不同周期被不同指令复用,不同类型的指令可能需要不同数量的周决定下一状态和控制信号状态转换图从而减少硬件资源需求例如,在ALU期,如加载指令通常需要个周期,而简描述了不同指令类型的执行流程,每个不同周期可以用于计算有效地址、执行5单的算术指令可能只需要个周期这种状态对应指令执行的一个阶段这种设算术运算或更新程序计数器这种复用4设计使得时钟周期可以更短,由单个阶计使控制逻辑更加灵活,能够处理复杂策略大大提高了硬件利用率,是多周期段的延迟而非整条指令的延迟决定的指令序列和异常情况设计的核心优势之一多周期基本结构CPU数据通路设计微操作序列功能模块可复用的数据流通路径每种指令类型的详细执行步骤控制状态机设计存储器复用指令和数据共享同一•型指令个周期完成基于有限状态机的控制单元,根据当前存储器•R4状态和指令类型决定下一状态加载指令个周期完成复用用于地址计算和数据运•5•ALU时序控制逻辑算存储指令个周期完成状态定义取指、译码、执行、访•4•协调各部件工作的时钟和控制信号存、写回等寄存器复用临时存储中间结果分支指令个周期完成••3时钟生成提供系统基本时序状态转换根据指令类型确定执行••路径复位逻辑初始化系统状态•控制信号每个状态产生特定控制控制信号时序确保信号正确时序••信号组合关系指令执行的微操作序列型指令执行流程R周期取指令(,存储器,)1PC→MAR→IR PC+4→PC周期译码和读寄存器(,)2IR[rs1]→A IR[rs2]→B周期执行()3ALU Aop B→ALUOut周期结果写回(寄存器)4ALUOut→[rd]加载指令执行流程周期取指令(同型)1R周期译码和读寄存器()2IR[rs1]→A周期地址计算(立即数)3A+→ALUOut周期存储器读取(,存储器)4ALUOut→MAR→MDR周期结果写回(寄存器)5MDR→[rd]存储指令执行流程周期同加载指令1-3周期存储器写入(存储器)4B→[ALUOut]分支指令执行流程周期取指令(同型)1R周期译码和读寄存器(,)2IR[rs1]→A IR[rs2]→B周期比较和更新(如果条件满足,立即数)3PC PC+→PC多周期性能分析CPU第六部分设计流水线处理器CPU—5+流水线阶段数典型处理器采用五段流水线,复杂处理器可达十几甚至几十段RISC1理想值IPC理想情况下,每个时钟周期可完成一条指令的执行3主要冒险类型数据冒险、控制冒险和结构冒险是影响流水线性能的主要因素30%性能提升相比多周期设计,流水线可提供显著的性能提升流水线技术是现代处理器设计中最重要的性能优化方法,通过将指令执行过程分解为多个阶段,并允许多条指令同时处于不同的执行阶段,大大提高了处理器的吞吐量虽然单条指令的执行延迟没有减少,但指令完成的速率显著提高流水线设计面临的主要挑战是处理各种冒险情况,包括数据依赖、控制转移和资源冲突流水线基本原理流水线划分吞吐量与延迟分析流水线寄存器设计将指令执行过程分解为多个相对独立的流水线的吞吐量是指单位时间内完成的流水线寄存器位于相邻阶段之间,用于阶段,每个阶段完成特定功能,如取指、指令数,理想情况下等于时钟频率延存储中间结果和控制信息这些寄存器译码、执行等理想的流水线划分应使迟是指单条指令从进入流水线到执行完的设计直接影响流水线的时序特性和功各阶段耗时大致相等,以最大化流水线成所需的时间,等于流水线阶段数乘以耗为保证正确性,流水线寄存器必须效率阶段划分过细会增加流水线寄存时钟周期流水线设计追求高吞吐量,在时钟边沿正确捕获上一阶段的结果,器开销,过粗则可能造成严重的性能不而接受较长的单指令延迟并在下一周期提供给下一阶段使用平衡五段流水线设计取指阶段IF从指令存储器中读取指令并更新程序计数器关键部件包括指令存储器、程序计数器和增量器该阶段的主要任务是确保指令流的连续供应,为后续PC阶段提供指令译码阶段ID解析指令内容,读取寄存器操作数,生成控制信号关键部件包括寄存器堆、指令译码器和立即数生成器该阶段识别指令类型并准备执行所需的各种操作数和控制信息执行阶段EX进行算术逻辑运算,计算内存访问地址和分支目标地址关键部件是和分支判断单元该阶段是流水线的核心计算阶段,完成指令的主要功能ALU操作访存阶段MEM根据需要访问数据存储器,完成加载和存储操作关键部件是数据存储器该阶段处理与内存交互的指令,将数据写入内存或从内存读取数据写回阶段WB将指令执行结果写回寄存器堆关键部件是写回多路选择器该阶段是指令执行的最后一步,确保计算结果正确保存以供后续指令使用流水线冒险类型结构冒险数据冒险控制冒险当多条指令同时需要使当指令依赖于前面指令当执行分支或跳转指令用同一硬件资源时发生,的结果,而该结果尚未时,流水线中已经取出如同时访问指令和数据写回时发生包括的指令可能需要被丢弃内存解决方法包括资(读后写)、这导致流水线需要重新RAW源复制(如分离的指令(写后读)和填充,造成性能损失WAR和数据缓存)、资源流(写后写)三种解决方法包括分支预测、WAW水线化(如流水线乘法类型,其中最为延迟槽、预测执行等技RAW器)或通过暂停解决冲常见数据冒险是流水术在具有深度流水线突结构冒险在现代处线处理器中最主要的性的现代处理器中,控制理器中相对少见,因为能瓶颈之一,需要通过冒险的处理尤为重要通常会通过硬件设计避前递、暂停或编译器优免化等多种技术解决数据冒险与处理方法前递技术Forwarding将指令结果直接送回流水线的早期阶段流水线暂停插入气泡等待数据依赖关系解除编译器调度重排指令顺序避免数据依赖寄存器重命名消除和冒险WAR WAW数据冒险是流水线处理器中最常见的性能问题,主要由指令间的数据依赖引起前递技术是解决冒险的主要方法,通过添加数据通路将或访存结果RAW ALU直接送回流水线的早期阶段,避免等待写回当前递无法解决问题时(如加载使用冒险),需要插入流水线暂停现代编译器能够通过指令重排序减少数据-冒险,插入无关指令填充依赖间隔寄存器重命名技术通过增加物理寄存器消除假数据依赖,是乱序执行处理器的关键技术控制冒险与处理方法分支预测技术延迟槽技术预测分支指令的结果,提前取指在分支指令后插入一条无论分支预测路径上的指令静态预测基结果如何都会执行的指令这种于固定规则(如总是预测不跳转技术最早在等处理器MIPS RISC或向后跳转),而动态预测则基中使用,通过在分支指令后放置于历史行为模式现代处理器采与分支结果无关的指令,减少控用复杂的预测器,如双级自适应、制冒险的影响延迟槽简化了硬、等,预测准确率件设计,但增加了编译器复杂性,gshare TAGE可达以上预测错误时需要在现代处理器中较少使用95%清空流水线并从正确路径重新取指分支目标缓冲BTB缓存已执行过的分支指令地址及其目标地址,用于快速确定下一条指令的位置本质上是一个缓存,索引通常是分支指令的值,存储的是分支目标地BTB PC址和预测信息当取指单元遇到已在中的地址时,可直接使用预测的目标BTB地址,避免等待分支指令执行完成高级流水线技术超标量处理器乱序执行推测执行超标量处理器具有多个功能单元,能够乱序执行允许指令按照数据依赖关系而推测执行是在结果尚未确定前提前执行在一个时钟周期内取出、解码和执行多非程序顺序执行,最大化硬件资源利用指令的技术,如根据分支预测执行预测条指令关键特性包括多发射、多条指率实现机制包括指令窗口、保留站和路径上的指令推测执行需要能够恢复令并行执行和结果的正确合并超标量重排序缓冲区指令按序取出和提交,机制,在预测错误时回滚到正确状态设计直接提高了指令级并行度,但增加但可以乱序执行,这种设计在存在长延现代处理器结合乱序和推测执行,能够了硬件复杂性和功耗,同时对编译优化迟操作(如缓存缺失)时特别有效有效隐藏各种延迟,显著提高性能提出了更高要求第七部分存储系统寄存器最快速但容量最小的存储层次1高速缓存Cache利用局部性原理减少主存访问延迟主存储器RAM提供大容量易失性存储空间辅助存储器非易失性大容量存储设备存储系统采用层次化设计,利用不同层次的存储设备平衡性能、容量和成本需求访问频率较高的数据存放在更快的存储层次,而大量数据存放在容量更大的层次缓存机制在各层次间自动移动数据,对程序透明这种设计利用了程序的局部性原理,使得系统在大多数情况下能够以接近最快存储设备的速度运行,同时获得大容量存储设备的空间优势存储层次结构存储层次典型容量访问延迟带宽成本元/GB寄存器几极高KB~
0.5ns~1TB/s缓存非常高L132-64KB~1-2ns~500GB/s缓存高L2256KB-1MB~3-5ns~200GB/s缓存中高L32-32MB~10-20ns~100GB/s主存中DRAM8-128GB~50-100ns~20-50GB/s存储低SSD256GB-8TB~50-200μs~2-7GB/s硬盘极低HDD1-20TB~5-10ms~100-200MB/s存储层次结构利用了程序的时间局部性(最近访问的数据很可能再次被访问)和空间局部性(访问某个数据后,其附近的数据很可能被访问)原理随着从上到下层次的递增,容量增大但访问速度减慢,单位容量成本降低现代计算机系统通过自动数据移动和复制机制,在各层次间高效地传输数据块,为程序提供接近最快速度的性能体验和接近最大容量的存储空间工作原理Cache时间局部性与空间局部性映射方式替换算法与写策略利用程序的局部性原理工作,时直接映射将每个内存块映射到唯一的当满时,需要决定替换哪一行数Cache Cache间局部性指最近访问的数据很可能再次行,实现简单但可能导致高冲突据常用替换算法包括(最近最少Cache LRU被访问;空间局部性指访问某个数据后,率组相联允许内存块映射到某一组中使用)、(先进先出)和伪等FIFO LRU其附近的数据很可能被访问基的任意行,提高灵活性全相联允许内写策略决定如何处理写操作,写直达立Cache于这两种局部性原理,预取和保留可能存块映射到任意行,冲突最少但即更新内存,写回仅更新,延迟Cache Cache被访问的数据,显著提高系统性能硬件复杂实际系统中,通常采用直写入内存现代系统通常结合使用,如L1接映射或路组相联,而则采采用写直达,采用写回2-4L2/L3L1L2/L3用路组相联8-16性能分析Cache主存储器技术与比较技术SRAM DRAMSDRAM/DDR SDRAM静态随机存取存储器使用同步动态随机存取存储器SRAM SDRAM触发器存储每个位,速度快但面积与系统时钟同步工作,支持突发传大、功耗高、成本高,主要用于输,比异步效率高双倍数DRAM动态随机存取存储器据率在时钟上升沿Cache DDRSDRAM使用电容存储信息,需要和下降沿都传输数据,有效翻倍数DRAM定期刷新,但密度高、成本低,适据传输率现代系统主要使用合大容量主存访问延迟约,每代技术SRAM DDR3/DDR4/DDR5为的到,但每位都提供更高的带宽和更低的功耗DRAM1/51/10成本约为的倍DRAM10内存与奇偶校验ECC错误检测和纠正技术能够检测并纠正内存中的单比特错误,检测多比特错误ECC内存通常在服务器和关键系统中使用,增加约的内存位用于校验奇ECC
12.5%偶校验只能检测错误但不能纠正,硬件开销较小,在某些低成本系统中使用这些技术对提高系统可靠性至关重要虚拟存储器设计虚拟地址与物理地址虚拟存储器将程序使用的虚拟地址空间映射到实际的物理地址空间这种映射使每个程序都可以有独立的地址空间,简化程序设计并增强安全性地址转换通常以页为单位进行,标准页大小为,但现代系统也支持大页(或)以减少缺失4KB2MB1GB TLB页表结构与TLB页表存储虚拟页到物理页框的映射关系为支持大地址空间,通常采用多级页表结构,如x86-使用四级页表转换后备缓冲区缓存最近的地址转换结果,大大加速地址转换过程64TLB现代处理器通常有多级,如分离的指令和数据,以及更大的二级TLB TLB TLBTLB页面替换算法当物理内存不足时,需要将某些页面换出到磁盘最佳替换算法选择最长时间内不会被访问的页面,但实际中无法实现实用算法包括最近最少使用、先进先出、时钟算法等LRU FIFO现代操作系统通常采用改进的时钟算法或其变种,结合访问频率和修改状态做决策内存保护机制虚拟存储系统提供页级别的访问保护,包括读写执行权限控制这种机制防止程序访问未授//权的内存区域,是操作系统安全的关键部分页表项通常包含权限位,处理器在每次访存时检查这些权限位,违规访问会触发页保护异常存储系统可靠性设计奇偶校验编码技术ECC RAID奇偶校验是最简单的错误检测方法,通过错误检测和纠正码能够既检测又纠冗余磁盘阵列通过多个磁盘的数据ECC RAID添加一个校验位使数据位和校验位中的总正错误常用的编码包括汉明码、分布和冗余提高存储系统的性能和可靠性1ECC数为奇数(奇校验)或偶数(偶校验)码(可检测双位错误并纠正单常见级别包括(条带化,提高性SEC-DED RAID0这种方法只能检测奇数个位错误,不能纠位错误)通常在内存和存储系统中能)、(镜像,提高可靠性)、ECC RAID1正错误,也不能检测偶数个位错误尽管使用,增加约的存储开销在关键(分布式奇偶校验)和
12.5%RAID5RAID6如此,由于其实现简单,仍在某些低成本系统中,是保证数据完整性的基础技(双重奇偶校验)现代存储系统常采用ECC系统中使用术技术保护关键数据RAID第八部分总线系统总线基本概念总线仲裁机制总线是计算机系统中连接各个部件的公当多个设备同时请求使用总线时,仲裁1共通信通道,用于数据、地址和控制信机制决定优先权,确保总线访问的公平2号的传输性和效率总线协议与标准系统总线设计4规定总线上的信号时序、传输方式和数根据系统需求设计总线结构、带宽、频据格式,保证不同设备间的兼容性和可率和接口,平衡性能、成本和兼容性互操作性总线分类与特性片内总线系统总线外部总线芯片内部的通信通道,连接处理器核心、连接、内存和高速外设的主干通信连接计算机系统与外部设备的通信通道CPU缓存和片上外设等组件现代处理器中通道现代系统中的代表是典型的外部总线包括、、PC PCIeUSB常见的片内总线包括环形总线、网格总总线,等这类总线需要考虑线缆长度、DMIDirect MediaInterface SATA线等这类总线通常采用高频率(连接和芯片组系统总线需要提供连接器设计、电磁兼容性等因素,通常GHz CPU级别)、宽数据位宽(位)高带宽和低延迟,通常工作在数百采用串行传输方式,使用差分信号和复128-512MHz设计,以满足片内高带宽、低延迟的通到数频率,数据位宽为位,杂的编码方案提高传输可靠性,支持热GHz64-256信需求采用点对点连接方式,支持高速差分信插拔和即插即用功能号传输总线仲裁机制总线仲裁机制确保在多个设备争用总线时能够公平、高效地分配总线访问权集中式仲裁由单一的仲裁器根据预定策略(如固定优先级、轮询、先到先得等)做出决策,实现简单但存在单点故障风险分布式仲裁让各设备通过自检测协议确定访问权,可靠性高但实现复杂链式仲裁通过菊花链方式传递总线许可信号,优先级固定且取决于物理位置计数器仲裁使用计数器循环分配总线访问权,公平性好但效率可能不高实际系统常采用这些基本机制的组合或变种,以平衡性能、公平性和实现复杂度总线操作与时序同步总线时序异步总线时序突发传输同步总线使用共享时钟信号协调所有设异步总线不依赖共享时钟,而是使用握突发传输是一次总线事务传输多个连续备的操作,所有信号变化和采样都与时手信号(如请求和确认)协调数据传输数据块的技术,通过共享地址阶段和控钟边沿对齐这种设计简化了接口电路,发送方发出请求并保持数据有效,直到制开销,显著提高带宽利用率现代内但对时钟偏斜和传输线延迟敏感,限制接收方发出确认信号这种设计对时钟存总线几乎都支持突发传输,如DDR4了总线长度和频率高性能系统总线和分布不敏感,允许不同速度设备互连,支持突发长度突发传输SDRAM4/8片内总线通常采用同步设计,如总线、但控制逻辑复杂且开销大和等通常配合预取技术使用,对顺序访问模AXI USBI2C总线等现场总线常采用异步或半同步设计式的性能提升显著,是高性能系统的关QPI键技术现代总线标准总线标准最新版本最大带宽主要应用场景关键特性显卡、高速存高带宽、点对PCIe
6.0128GB/sx16储、网卡点、热插拔外设连接、移通用性、即插USB
4.040Gbps动设备即用、供电硬盘、光驱热插拔、兼容SATA
3.56Gbps性好同高性能低延迟、高并NVMe
2.0PCIe SSD行度高速外设、扩多协议、供电、Thunderbolt440Gbps展坞显示现代总线标准不断演进以满足不断增长的带宽需求和新应用场景已成为系统内高速设备连接的PCIe主流标准,通过增加通道数和提高单通道速率不断提升性能凭借其通用性和易用性,成为外设USB连接的事实标准,近年来增加了供电能力和视频传输功能协议优化了针对闪存的访问模式,NVMe大大降低了存储延迟这些标准共同构成了现代计算机系统中的高效互连网络第九部分输入输出系统接口设计中断系统控制器I/O DMA接口是连接外部设备和系统总线的桥梁,中断系统允许外设在需要处理器服务时发直接内存访问控制器允许外设直接I/O DMA负责数据格式转换、缓冲、时序同步和电出信号,使处理器能及时响应外部事件与内存交换数据,无需介入每次传输CPU气特性匹配典型的接口包含数据寄存中断机制包括中断请求、中断仲裁、中断大大减轻了负担,提高了系统吞I/O DMA CPU器、控制寄存器、状态寄存器和地址解码向量和中断服务程序等组件现代处理器吐量,特别适合大数据块传输现代系统逻辑,可通过内存映射或独立寻址支持多级中断优先级和中断嵌套,确保关中的控制器常集成在外设控制器中,I/O I/O DMA方式访问接口设计需要平衡功能、性能、键事件能得到及时处理中断是实现高效支持分散聚集传输、链式操作和智能缓冲-成本和可靠性多种因素的关键机制管理等高级功能I/O设备分类与特性I/O块设备特性块设备以固定大小的数据块为单位进行访问,典型的块设备包括硬盘、固态硬盘和闪存存储器这类设备支持随机访问,通常具有较高的数据传输率但访问延迟较大块设备对操作系统透明,通过文件系统提供抽象接口,成为大容量数据存储的主要媒介字符设备特性字符设备以字符为单位进行数据传输,不支持随机寻址,典型的字符设备包括键盘、鼠标、串口和打印机这类设备通常数据传输率低但对实时性要求高,多采用中断驱动方式与系统交互字符设备通常通过设备驱动程序提供标准化的接口供应用程序访问网络设备特性网络设备负责计算机系统与外部网络的数据交换,包括网络适配器、路由器和交换机等这类设备兼具块设备和字符设备的某些特性,通常采用缓冲区管理和技术处理高速数据流,同时使用中断机制处理异步事件现代网络设备通常支持硬件卸载功能,减轻负担DMA CPU控制方式I/O程序查询方式通过轮询检查设备状态,直到设备就绪CPU中断驱动方式设备就绪时通过中断通知,提高利用率CPU CPU控制方式DMA数据传输由控制器完成,只参与传输初始化和完成处理DMA CPU处理机方式I/O4专用处理器执行复杂操作,提供高级功能和优化性能I/O控制方式随着计算机技术的发展不断演进,从简单的程序查询到复杂的处理机,与设备的交互方式越来越高效程序查询方式实现简单I/O I/O CPUI/O但利用率低;中断驱动方式通过异步通知机制提高了利用率;方式进一步减轻了负担,特别适合大数据量传输;处理机方式则通CPU CPUDMA CPUI/O过专用处理器实现了最高级别的并行性和性能优化现代系统通常结合使用这些方式,根据设备特性和性能需求选择最合适的控制方式中断系统设计中断向量表中断优先级中断向量表存储各类中断的服务程中断优先级机制确保高优先级事件序入口地址,处理器根据中断类型能及时处理,防止关键操作被延迟在表中查找对应的处理程序现代硬件级优先级通常在中断控制器中处理器通常支持向量中断模式,中实现,如的支持级Intel APIC256断号直接映射到表中特定位置,简优先级软件级优先级则通过操作化了中断响应过程操作系统负责系统调度实现,如禁用低优先级中初始化和维护中断向量表,确保各断的嵌套合理设计的优先级系统类中断能正确处理对实时系统的正确运行至关重要中断嵌套中断嵌套允许高优先级中断打断正在执行的低优先级中断处理程序这种机制确保紧急事件能得到及时响应,但增加了系统复杂性和开销中断嵌套需要保存和恢复多层上下文,处理好中断屏蔽和重入问题现代操作系统通常实现可控的中断嵌套策略,平衡响应性和稳定性工作原理DMA控制器结构DMA控制器是一个专用硬件,包含地址寄存器、计数器、控制寄存器和状态寄DMA存器地址寄存器存储源地址和目标地址,计数器记录待传输的数据量,控制寄存器设置传输方向和模式,状态寄存器反映当前传输状态现代控制器DMA通常支持多通道和高级功能,如分散聚集传输和链式操作-传输模式DMA传输有多种模式,包括突发模式、周期窃取模式和透明模式突发模式在DMA一段时间内完全占用系统总线,适合高速设备;周期窃取模式在不使用总CPU线时才传输数据,对影响小;透明模式只在访问非总线内存时传输,CPU CPU对完全透明选择合适的模式需平衡传输效率和性能影响CPUCPU与的关系DMA CPU操作过程包括初始化、传输和完成三个阶段负责配置控制器DMA CPUDMA参数并启动传输,然后可以执行其他任务;传输过程由控制器自主完成;DMA传输结束后通过中断通知这种分工极大提高了系统效率,特别是对DMACPU大数据量传输的场景现代系统中,已成为高性能的基础技术DMA I/O第十部分计算机组成新趋势多核处理器架构计算专用芯片设计GPU随着单核频率提升遇到瓶颈,多核架构图形处理器凭借其高度并行的架针对特定应用领域优化的专用芯片设计GPU成为提高性能的主要途径现代处理器构,已从图形渲染扩展到通用计算领域越来越普及,如加速器、网络处理器AI从双核发展到数十核,甚至上百核,通现代包含数千个计算核心,特别适和安全芯片等与通用处理器相比,这GPU过并行处理提高吞吐量多核设计面临合数据并行的计算密集型任务,如深度些芯片在特定任务上可提供数十倍甚至的主要挑战包括核间通信、缓存一致性、学习、科学模拟和密码学、数百倍的性能和能效优势定制化芯片CUDA内存带宽瓶颈和并行编程难度异构多等编程模型使计算更加普设计正从高端服务器向消费电子和边缘OpenCL GPU核架构结合大小核设计,平衡性能和能及,已成为高性能计算和加速的计算设备扩展,推动了计算技术的多元GPU AI效需求关键技术化发展人工智能处理器架构TPU神经网络加速器设计的张量处理单元,针对机器学Google专为深度学习工作负载优化的处理器架构习优化矩阵乘法单元优化•系统矩阵单元•MXU高带宽片上存储•统一缓冲架构•专用数据流设计•低精度计算优化•指令集扩展设计原理AI NPU4通用处理器中的加速指令移动设备中的神经网络处理单元AI向量神经网络指令超低功耗设计••低精度算术支持异构计算架构••特殊激活函数加速模型压缩与量化••课程总结与展望关键知识点回顾前沿技术发展学习路径建议通过本课程,我们系统学习了计算机硬计算机组成与体系结构领域正经历快速建议继续深入学习计算机体系结构、操件系统的基本组成与工作原理,从最基变革,多核异构处理器、专用加速器、作系统、编译原理等相关课程,形成完础的数据表示与运算,到复杂的设新型存储技术和互连网络不断涌现人整的计算机系统知识体系参与实际硬CPU计、存储系统、总线系统和输入输出系工智能硬件加速、量子计算、非冯诺依件设计项目,使用或工具实FPGA HDL统这些知识构成了理解现代计算机系曼架构等新兴技术可能重塑未来计算范现简单处理器,将理论知识转化为实践统的基础框架,也是进一步学习计算机式在摩尔定律减缓的背景下,创新的能力关注学术会议如、ISCA MICRO体系结构和系统设计的必备基础架构设计和专用硬件优化将成为提升计和的最新研究成果,了解前沿ASPLOS算性能的主要途径技术动态。
个人认证
优秀文档
获得点赞 0