中国·芯片交易在线
首页 | 供应信息 | 求购信息 | 库存查询 | 新闻中心 | 展会资讯 | IC厂商 | 技术资料 | 自由区域
   新闻首页 |  行业动态 | 新品发布 | 政策法规 | 科技成果 | 模拟技术 | 嵌入系统 | 传感控制 | 存储设计  
当前位置:IC72首页>> IC新闻中心>> 行业动态 >>电子行业新闻正文

定点处理器vs.浮点处理器:如何优化您的选择?

时间:2007/4/23 9:56:00  作者:  来源:ic72  浏览人数:939
 
 

      浮点处理器的优点众所周知。毫无疑问,许多算法的浮点实现执行起来比定点代码占用更少的周期(当然假设定点代码提供相同的精度)。浮点处理器也往往更容易用汇编代码编程。不过,浮点运算的这两种优势还不足以影响设计师的最终选择。随着编译器质量的日渐提高,人们几乎不再用汇编语言编写代码,无论是定点或者浮点运算,采用C语言写代码几乎同样简单。此外,在C语言中,你肯定能为一个定点处理器编写浮点算法,尽管这样做会使性能大幅下降。设计师关心的是最后的系统性能、成本以及上市时间。在下面的分析中,我要使用它们作为衡量标准以决定该使用何种类型处理器。

      目前有各式各样的处理器,既有定点的也有浮点的。对每个处理器逐一进行分析将使这篇文章的长度足以与一本百科全书相媲美。因此我们将分析范围限制在以下处理器上:两款来自定点阵营的ADI Blackfin处理器和来自其浮点竞争对手的SHARC处理器。我们还将进一步挑选两个相似价位的处理器--ADSP-21531 Blackfin和ADSP-21375 SHARC进行比较,到截稿时,如果购买数量合理的话,它们的单价为5美元左右。

      有人也许会认为,在芯片价格相似的情况下,应该选择浮点处理器,仅仅因为万一需要用到浮点运算的时候,它也可以应付。但是芯片价格的接近并不一定总能转化成最终系统价格的接近。例如,对于相同的定点运算任务来说,SHARC的功耗比Blackfin高,这将引起电源设计耗费的增加和其它一些相关问题。无论如何,单一的应用很可能会偏好某种处理器。所以,为了公平起见,我们将考虑四种单独的应用:1)军用雷达;2)移动电视;3)专业音效处理器;4)免提便携装置中的自动回波抵消器。

      选择这些应用并非是乱选一通。相反,我选择这些应用出于以下标准:这种应用是所在领域的明显赢家;或者答案还不是很确定并需要深度分析;或者这种应用太简单,以致容易引起误解。我还想补充一点,如果没有考虑ASIC硬件协处理器(片上或片下)以及可以从DSP卸载一些信号处理任务的FPGA,那么任何实际分析都是不完全的。 有关这些方面的讨论完全在本文的范围之外,但是请记住,以下的研究仅仅是真实世界里更大范围分析的一部分。

      军用雷达

      我们最好从容易的选择开始。在军用雷达中你会经常用到浮点处理器。为什么?因为在这种应用中浮点性能是不可缺少的。雷达依靠的就是测定自模糊函数的最大绝对值。该函数表达的是发出的测试信号和接收的回波之间的互相关性。

      这是一个指数函数的积分。这种积分能用FFT技术计算。在计算大型FFT时,浮点运算十分有用,而且在这里采用浮点处理器没有任何障碍。只要热量能排出(即处理器不发烫),功率不是大问题。该装置的成本也不是主要问题,因为这些处理器成本仅占整个系统成本的很小部分。事实上,一般不大会选择ADSP-21367 SHARC来完成这样的任务,因为该应用的一个目标是在每平方毫米中尽可能提供更多的处理能力。因此,ADI公司的TigerSHARC系列产品中的高性能ADSP-TS201会更适合这个应用。

      移动电视

      这是另一个易于决定的选择。在移动电视中完全没有必要进行浮点处理。大部分的信号链处理是在标准解码器中进行的,如MPEG-2, MPEG-4, JPEG-2000和H.264。这些算法被设计由定点运算来执行。更高精度和更大动态范围的浮点运算不仅毫无帮助,而且根本无法使用,因为这些算法通常都只精确到比特。

      例如,在视频编解码器中使用的频域的变换实际上是某种形式的DCT变换(离散余弦变换)。表面上,似乎浮点运算更适合于DCT计算,就像适合FFT计算一样。浮点运算确实会产生更加精确的DCT。不幸的是,视频编解码器中的DCT是被设计在定点处理器上完成的,并且只精确到比特,因此在这里追求更高的精度是完全错误的。

      更何况,视频编解码器的大部分工作量都用于控制代码,那里同样也不需要浮点编码。比如,视频编解码器中使用的熵编码器占了整个工作量的很大一部分(在H.264算法中使用的CABAC编码器更是如此)。

      这里所考虑的两种处理器,能根据下列事实较清楚地做出正确的选择,即Blackfin处理器拥有特别设计的加速视频算法性能的指令。相反,SHARC处理器没有特殊的视频指令。此外,功耗对于移动市场来说是至关重要的,这几乎就将浮点处理器排除在外了。这些使选择变得轻而易举。

      而其余的应用实例将需要我们进行更加深入的分析,才能做出正确的处理器选择。

      专业音效处理器

      现在我们将面对一个选择不是那么清晰的应用。这里没有移动应用所需要的严格功耗限制,音效处理器通常是通过外接电源供电的。除非处理器非常热,需要强制冷却(一个很昂贵的建议),否则关于功耗的讨论都将归于供电成本。

      举例来说,我们正设法为一个双通道系统建立一个具有La Scala歌剧院混响的效果处理器。一种方法是去La Scala歌剧院实地测量脉冲响应(长到直到其最后回声听不见为止),或者你也可以作弊,从网上下载已经测量到的脉冲响应。我就是这样做的,该脉冲响应接近2秒长。如果采用96 KHz的抽样频率,该响应就换成FIR延迟线上192,000个样本(实际的抽样频率可能是48KHz或192KHz,所以我取了中间值)。因此,为了拥有准确的实施混响效果,我们需要实现一个192,000抽头的滤波器。

      当然,直接做一个192,000抽头滤波器是一个疯狂的想法,这需要对每个输出样本做192,000次乘法运算。每秒96,000个样本,这意味着每秒将做超过180亿次的乘法。考虑到有两个输出通道,还要将这个数量乘2,再加上必须的额外处理,以及为未来扩展留出的空间,你能想象吗?我们在这里轻松谈论的是每秒1,000亿次的MAC!退一步说,即使你能用100个并行处理器来完成这项工作,但是最终这个盒子的售价(和其大小)都会对其销售产生消极影响。因此,进行优化是必要的,我们要根据处理器选择的情况来进行优化。

      让我们首先考虑浮点运算的执行。如前所述,浮点运算处理对大型FFT来说是有益的,因此我们可以在频域中实现该滤波器。常用的一种算法是重叠相加FFT(这是通过一组较小型FFT来计算大型FFT的一种基本方法) 。本文将选择一个1,024点窗口来计算重叠相加FFT。

      ADI的网站显示ADSP-21367 SHARC能在大约9,200个周期内完成1,024点复杂SIMD(单指令多数据)FFT。这样,为了计算1,024个输出样本,必须做一个1,024点FFT,然后再做1,024次复杂乘法,最后再做一个1,024点IFFT。复杂乘法运算要占用SHARC处理器的2,048个周期。因此,计算1,024个输出,将需要9,200+2,048+9,200=20,448个周期,即每个输出需要大约20个周期。加上完成重叠相加FFT所需的填零,访问外部存储器以读入脉冲响应的预计算FFT,同样由于有两个通道所以全部都要乘以2,这样每个输出需要大约100个周期。每秒抽样96,000次,那么每秒需要9,600,000个周期。换句话说,这将只消耗SHARC处理能力预算的10MIPS。

      现在,让我们用一个定点处理器来实现相同的任务。不幸的是,上述FFT的执行遭遇了重大问题。一个1,024点FFT/IFFT组合产生一个1,024增益,即10位。为了避免溢出,在FFT/IFFT的计算过程中,信号要下移10位。如果我们希望输出有24位分辨率的话,就必须执行34位操作。由于A/D和D/A转换器通常提供少于24位的SNR,我们采用32位操作就可获得22位的性能。一个定点16位处理器要做4次乘法,还有一些移位和相加,才能完成一个32位乘法。

      假如使用Blackfin处理器,每个32位乘法需要6个周期。结果,在SHARC上需要10MHz的处理过程在Blackfin上需要60MHz。出乎意料的是,在这点上Blackfin似乎占有优势。任何一个处理过程都能轻松处理其工作量,所以要靠其它因素,例如功耗,来决定哪种处理器更适合。在这样低的频率下,在整个功率消耗中泄漏功率占很大一部分,这就使得频差的相关性减小。Blackfin大大降低了泄漏功率,所以在这种情况下它可能脱颖而出。然而,随着处理工作量的增加,动态功率成分越来越占据主导地位,这样不久以后,六个频率差异因素将使SHARC占尽优势。在极端情况下,Blackfin执行会用完全部的MIPS,从而使SHARC成为唯一的选择。

      用另一种不同的方式,可以实现所需混响的近似值。我们可以仅保留主项而将其它项归零。假设我们想要保持1%项非零,将其做成一个1,920抽头FIR。我们不能再用FFT来做这个滤波器,因为FFT不能有选择性地计算项目,它必须计算所有值。因此,我们将直接实现这个FIR。这意味着每个输出样值需要1,920次乘法才能实现。为了保持24位精度,我们要将其乘以6。Blackfin每个周期能做两个16位乘法,因此除以2可得到周期数。总而言之,每个输出归结为5,760个周期。要获得全部的工作量,再将其乘以2(通道数量),再乘以96,000MHz的抽样频率,而且还要为管理和新功能预留一定的空间。这样,我们得到2GHz的运行频率。这样,我们将99.9%的脉冲响应项归零后以200MHz来实现。但该频率仍远远高于我们用SHARC时基于FFT的解决方案。或许更重要的是,当我们将99.9%的项归零时滤波器的性能就已经开始受到损害了。

      在现实生活中,一个专业音效果处理器拥有比混响更多的功能。要想充分认识定点/浮点之间的权衡比较,你必须全面分析处理过程。这不是一个简单的任务,但是混响的例子清楚表明了浮点解决方案比定点解决方案消耗更少的功率,尽管事实上数据表中的功率数据暗示了相反的结果。

      免提便携装置中的自动回波抵消器

      自动回波抵消器常常使用FFT来计算参考信号的相关性。你也许认为因为使用了FFT,浮点运算成为当然的更好选择。然而,前面例子中的FFT与这里的FFT有一个重要的区别。在前面的例子中,听众能够听到FFT/IFFT的结果。因此,我们必须保持高质量的SNR。在回波抵消器中,FFT仅仅用来计算回波的时间延迟,它实际上并不更改音频流。所以,你可以不必做一个16位精度的FFT。这将大大改变周期计数分析。

      此外,还必须注意到回波抵消器常用于免提便携式装置中。这对功率预算给出了严格限制。浮点处理器可能仅仅由于有过多的泄漏功率就不能成为可行的候选者。

      我们可以看到,对于一些边缘情况,在定点和浮点运算之间做出选择是简单明确的。然而,在界限不是那么清晰的灰色区域中分析就会变得相当复杂。如果你还有其它方面的考虑,比如用于减轻处理过程工作量的硬件加速、减轻编程复杂度(影响产品上市时间)、最大dI/dt值(影响到电源去耦的成本)以及电路板布局等,事情就会变得更为复杂。不过,做这样的分析是值得的,不要顽固地坚持你对于定点和浮点处理器的既定观念。也许你会惊讶地发现原来你一直使用的是错误类型的处理器。
 
 
 

 
【相关文章】
·从工艺技术角度解读AMD的65nm Athlon 64 X2双核CPU
·定点处理器vs.浮点处理器:如何优化您的选择?
·英特尔豪赌UMPC,明年均价降至500美元(1)
 
 
IC新闻搜索
 
热点新闻
基于红外超声光电编码器的室内移动小车定位系
基于闪烁存储器的TMS320VC5409DSP并行引导装载方法
非移动市场需求飙升,ARM预计2010年出货量超50亿片
一种快速响应的电容式湿度传感器感湿薄膜设计
利用特殊应用模拟开关改进便携式设计
无线传感器网络跨层通信协议的设计
基于ARM9内核Processor对外部NAND FLASH的控制实现
基于GSM技术的汽车防盗系统的设计
热电阻在烟叶初烤炕房温度控制中的应用
高速数据转换系统对时钟和数据传输的性能要求
友情连接
 关于我们  IC论坛  意见反馈  设置首页  广告服务  用户帮助  联系我们
copyright:(1998-2005) IC72 中国·芯片交易在线
(北京)联系电话:(010)82614113、82614123 传真:(010)82614123 客户服务:service@IC72.com 库存上载:IC72@IC72.com
在线MSN咨询:ic72sale8@hotmail.com 通信地址:北京市西城区西直门内大街2号大厦15层 邮政编码:100013
(深圳)联系方式: 在线MSN咨询:ic72sale6@hotmail.com 在线QQ咨询:191232636 通信地址:深圳市福田区振华路
注 册 号: 1101081318959(1-1)

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9