微处理器的低功耗芯片设计技术_DSP/FPGA技术

微处理器的低功耗芯片设计技术

点击数：7712 次录入时间：03-04 11:36:20 整理：http://www.55dianzi.com DSP/FPGA技术

　　随着半导体工艺的飞速发展和芯片工作频率的提高，芯片的功耗迅速增加，而功耗增加又将导致芯片发热量的增大和可靠性的下降。因此，功耗已经成为深亚微米集成电路设计中的一个重要考虑因素。为了使产品更具竞争力，工业界对芯片设计的要求已从单纯追求高性能、小面积转为对性能、面积、功耗的综合要求。而微处理器作为数字系统的核心部件，其低功耗设计对降低整个系统的功耗具有重要的意义。

　　2000年年初，Transmeta公司推出了Crusoe处理器，以其独特的低功耗设计技术和非凡的超低功耗表现，在业界引起巨大轰动，引发了低功耗处理器设计的激烈竞争。

　　在2006年的英特尔开发者论坛大会(Intel DeveloperForum)上，英特尔展示了多款基于下一代技术的微处理器。其中，Metom主要用于笔记本电脑，最大功耗仅有5W，而将于2006年底上市的超低电压版Merom的功耗则只有0．5W；Conroe主要面向台式机，其最大功耗为65W，远远低于现有Pentium 4处理器的95W；服务器处理器Woodcrest的最大功耗为80W，而现有的Xeon处理器的功耗为110W。

　　本文首先介绍了微处理器的功耗来源，重点介绍了常用的低功耗设计技术，并对今后低功耗微处理器设计的研究方向进行了展望。

　　1 微处理器的功耗来源

　　研究微处理器的低功耗设计技术，首先必须了解它的功耗来源。高层次仿真得出的结论如图1所示。

高层次仿真得出的结论

　　从图1中可以看出，时钟单元(CLOCk)功耗最高，因为时钟单元有时钟发生器、时钟驱动、时钟树和钟控单元的时钟负载；数据通路(Datapath)是仅次于时钟单元的部分，其功耗主要来自运算单元、总线和寄存器堆。除了上述两部分，还有存储单元(Memory)，控制部分和输入／输出(Control，I／O)。存储单元的功耗与容量相关。

　　如图2所示，CMOS电路功耗主要由3部分组成：电路电容充放电引起的动态功耗，结反偏时漏电流引起的功耗和短路电流引起的功耗。其中，动态功耗是最主要的，占了总功耗的90％以上，表达式如下：

　　式中：f为时钟频率，C1为节点电容，α为节点的翻转概率，Vdd为工作电压。

CMOS电路功耗主要由3部分组成

　　2 常用的低功耗设计技术

　　低功耗设计足一个复杂的综合性课题。就流程而言，包括功耗建模、评估以及优化等；就设计抽象层次而言，包括自系统级至版图级的所有抽象层次。同时，功耗优化与系统速度和面积等指标的优化密切相关，需要折中考虑。下面讨论常用的低功耗设计技术。

　　2．1 动态电压调节

　　由式(1)可知，动态功耗与工作电压的平方成正比，功耗将随着工作电压的降低以二次方的速度降低，因此降低工作电压是降低功耗的有力措施。但是，仅仅降低工作电压会导致传播延迟加大，执行时间变长。然而，系统负载是随时间变化的，因此并不需要微处理器所有时刻都保持高性能。动态电压调节DVS(DynarnIC Voltage Scaling)技术降低功耗的主要思路是根据芯片工作状态改变功耗管理模式，从而在保证性能的基础上降低功耗。在不同模式下，工作电压可以进行调整。为了精确地控制DVS，需要采用电压调度模块来实时改变工作电压，电压调度模块通过分析当前和过去状态下系统工作情况的不同来预测电路的工作负荷。

　　2．2 门控时钟和可变频率时钟

　　如图1所示，在微处理器中，很大一部分功耗来自时钟。时钟是惟一在所有时间都充放电的信号，而且很多情况下引起不必要的门的翻转，因此降低时钟的开关活动性将对降低整个系统的功耗产牛很大的影响。门控时钟包括门控逻辑模块时钟和门控寄存器时钟。门控逻辑模块时钟对时钟网络进行划分，如果在当前的时钟周期内，系统没有用到某些逻辑模块，则暂时切断这些模块的时钟信号，从而明显地降低开关功耗。图3为采用“与”门实现的时钟控制电路。门控寄存器时钟的原理是当寄存器保持数据时，关闭寄存器时钟，以降低功耗。然而，门控时钟易引起毛刺，必须对信号的时序加以严格限制，并对其进行仔细的时序验证。

　　另一种常用的时钟技术就是可变频率时钟。它根据系统性能要求，配置适当的时钟频率以避免不必要的功耗。门控时钟实际上是可变频率时钟的一种极限情况(即只有零和最高频率两种值)，因此，可变频率时钟比门控时钟技术更加有效，但需要系统内嵌时钟产生模块PLL，增加了设计复杂度。去年Intel公司推出的采用先进动态功耗控制技术的Montecito处理器，就利用了变频时钟系统。该芯片内嵌一个高精度数字电流表，利用封装上的微小电压降计算总电流；通过内嵌的一个32位微处理器来调整主频，达到64级动态功耗调整的目的，大大降低了功耗。

www.55dianzi.com

　　2．3 并行结构与流水线技术

　　并行结构的原理是通过牺牲面积来降低功耗。将一个功能模块复制为n(n≥2)个相同的模块，这些模块并行计算后通过数据选择器选择输出，采用二分频的并行结构，如图4所示。

采用二分频的并行结构

　　并行设计后，由于有多个模块同时工作，提高了吞吐能力，可以把每个模块的速度降低为原来的l/n。根据延时和工作电压的线性关系，工作电压可以相应降低为原来的l／n，电容增大为原来的n倍，工作频率降低为原来的l／n，根据式(1)功耗降低为原来的1／n2。并行设计的关键是算法设计，一般算法中并行计算的并行度往往比较低，并行度高的算法比较难开发。例如：若原模块的功耗为P=a×CL×V2dd×f，采用二分频结构，由于增加了一个模块和数据选择器，整个电容负载为2．2CL，工作频率为f/2，工作电压可以降为O．6 V，则其功耗为：

　　由此可见，二分频并行结构在保持原有电路性能的同时降低了60％的功耗。

　　流水线技术本质上也是一种并行。把某一功能模块分成n个阶段进行流水作业，每个阶段由一个子模块来完成，在子模块之间插入寄存器，如图5所示。若工作频率不变，对某个模块的速度要求仅为原来的1／n，则工作电压可以降低为原来的1／n，电容的变化不大(寄存器面积占的比例很小)，功耗可降低为原来的1／n2，面积基本不变，但增加了控制的复杂度。例如，若原模块的功耗为P=α×C1×V2dd×f，采用流水线技术，由于增加了寄存器，整个电容负载为1．2CL，工作频率不变，工作电压降为0．6 V，则其功耗为：

　　由此可见，流水线技术能显著降低系统功耗。

流水线结构

　　通过流水线技术和并行结构降低功耗的前提是电路工作电压可变。如果工作电压固定，则这两种方法只能提高电路的工作速度，并相应地增加了电路的功耗。在深亚微米工艺下，工作电压已经比较接近阈值电压，为了使工作电压有足够的下降空间，应该降低阔值电压；但是随着阈值电压的降低，亚阈值电流将呈指数增长，静态功耗迅速增加。因此，电压的下降空间有限。

　　2.4 低功耗单元库

　　设计低功耗单元库是降低功耗的一个重要方法，包括调整单元尺寸、改进电路结构和版图设计。用户可以根据负载电容和电路延时的需要选择不同尺寸的电路来实现，这样会导致不同的功耗，因此可以根据需要设计不同尺寸的单元。同时，为常用的单元选择低功耗的实现结构，如触发器、锁存器和数据选择器等。

　　2.5 低功耗状态机编码

[1] [2] 下一页