虽然赛灵思(Xilinx)几年前就推出了第一代面向DSP应用而优化的FPGA产品,并宣称已经有了数百家DSP应用客户,但吴晓东仍不得不在开场白中就澄清DSP的含义——由于TI长期担当DSP处理器霸主,在人们心目中,TI、DSP和数字信号处理是三位一体的。因为TI也是Xilinx的合作伙伴,因此对于DSP和FPGA的竞合关系,吴晓东出言也非常谨慎。
继推出Virtex-4 SX和Virtex-5 SXT两款面向DSP应用的高端FPGA平台后,Xilinx日前宣布推出首个低成本Spartan-DSP系列产品以及相应的开发板和增强设计软件,进一步扩展了其面向DSP应用的XtremeDSP解决方案产品线。Xilinx宣称Spartan-DSP性价比和功耗为数字信号处理树立了新的标杆——Spartan-DSP可以提供了高达20GMACS(每秒十亿次乘法累计)的DSP功能,而价格不到30美元,据称与同类的其它高性能可配置DSP器件相比,该系列产品的动态功耗降低多达50%。
随着算法变得复杂,单独DSP处理器(红色部分)难以满足性能需求
作为Spartan-DSP系列中的第一个平台,Spartan-3A DSP与性能更高的Virtex-DSP系列形成互补。Virtex-DSP系列最高性能达352GMACS,瞄准的是高端通信和视频应用,如无线基站和包括监控、广播以及3D医疗图像在内的高分辨率视频应用。Spartan-3A DSP则面向1-30 GMACS性能范围,满足了大量对价格和功耗都很敏感的应用的要求,包括单通道微蜂窝无线基站中的数字头端(DFE)和基带解决方案、军用移动软件定义无线电(SDR)、超声系统、辅助驾驶/多媒体系统、高清视频以及智能IP相机等——事实上,这些也是3月份Altera公司宣布发售65nm低成本FPGA Cyclone III系列时所强调的新兴应用。
DSP应用需求和DSP处理器性能存在差距,FPGA来填补
Xilinx亚太区市场营销董事郑馨南表示,过去二十年里算法复杂性的快速提升是推动FPGA在DSP应用中使用的最重要市场动力。算法越复杂,对处理器的性能要求也越高,然而,传统DSP和通用处理器(GPP)等固定架构处理器的性能限制在摩尔定律规定的理论限定值以下,因此导致了算法性能要求和处理器性能之间的差距越来越大,这就需要FPGA来填补这种空白。
他以通信领域为例回顾DSP应用历史说,20世纪70年代,DSP应用的驱动力为语音频带,性能需求的数量级为“KHz”,微处理器和MCU可以满足需求;20世纪80年代和90年代,无线电为DSP应用驱动力,性能需求的数量级为“MHz”,DSP独领风骚;而进入21世纪,三网合一(Tri-play)要求非常复杂的信号处理,只有DSP和FPGA协作才能够满足应用需求。
融合应用时代,需要FPGA和DSP协作满足高性能信号处理需求
吴晓东解释说,传统DSP处理器是实时信号处理的最佳答案,但由于它毕竟是一个串行结构,当做比较复杂的运算就可能来回循环几百次,因此它的速度反而并不是很快,单个DSP处理器很难满足5GMACS以上性能需求;而FPGA是一个天生的并行处理结构,包含了有几百个MAC单元,因此性能实际上是远远高于传统DSP处理器,例如我们的Virtex-5 SXT FPGA在550MHz下性能达352GMACS。因此,他表示:“由于FPGA可以弥补DSP处理器的不足,在在信号处理系统中FPGA与DSP相得益彰,可实现系统逻辑复用及合并、新外设或总线接口和信号处理链中的性能加速”。
他以视频监控应用举例说,以前很少有客户用FPGA,因为以前视频监控的要求不高,通道数不多,对图像的质量也要求不高,但是随着视频监控由标清转向高清,从单通道转到八通道,从非实时转到对实时的要求,外加人脸识别和运动估计等分析功能,普通的DSP就很难实现,目前需要多片DSP来一起处理,成本十分昂贵,而用DSP+FPGA的方式则十分完美,可以大大节省成本。其中,FPGA用于加速实时视频处理和压缩,而DSP运行实时操作系统和第三方分析软件。
FPGA和DSP处理器近期互补为主,未来难免竞争
由于目前在DSP应用中,FPGA主要是作DSP处理器的协处理器,Xilinx和TI也是合作伙伴,因此吴晓东更强调两者FPGA和DSP间的协作,而不是取代关系。吴晓东表示:“我们一直说FPGA和DSP的互补和并存,并没有去强调我们去取代DSP,因为DSP是串行结构,FPGA是并行结构,很多情况下两者都会用到,怎么把软和硬结合达到最佳效果取决于客户自己的习惯。”他还指出,客户会首先考虑用DSP,因为过去很多工程师是在DSP上进行软件设计,熟悉DSP芯片和工具,但工程师逐渐发现DSP在瓶颈和性能等方面有不能解决的困扰,所以客户也在研究更好的架构和处理方法,所以最近几年FPGA+DSP互补结构是一种最优化的架构,越来越被广泛使用和接受。
尽管目前双方互补,但随着DSP处理器通过采用提高时钟频率和多核提升性能,而Xilinx发布Spartan-DSP这样的低成本FPGA“适当降低性能”,双方的碰撞也在所难免。例如,TI不久前针对WCDMA基站推出了高集成度DSP TMS320TCI6488,它采用3个1GHz的DSP内核,能够在单芯片上支持宏基站所需的所有基带功能,无需FPGA、ASIC及其它桥接器件。
吴晓东也坦承了FPGA和DSP处理器存在一定的竞争关系,他对记者表示:“目前的趋势是一个往下走(FPGA),一个往上走(DSP),双方都为了弥补性能上的鸿沟,都是为了更好服务客户,满足市场的需求,最终的抉择取决于客户,取决于应用。”吴晓东指出,很难为客户选择DSP还是FPGA划定一个明显的界限,我们现在看到5GMACS以下是普通DSP容易实现,5GMACS以上就比较困难了,而且需要多片去处理,这时候FPGA更有优势。
Spartan-3A对阵Cyclone III:逻辑片和乘法器架构
Spartan-3A DSP平台的两款器件3SD3400A和3SD1800A分别可以提供超过30 GMACS/2200 Gbps存储器带宽和20 GMACS/1500 Gbps存储器带宽,分别包括126和84个XtremeDSP DSP48A逻辑片,最高DSP频率都为250MHz。Spartan-3A DSP平台还提供多达53,712个逻辑单元、2268 Kbits性能增强的Block RAM(BRAM)以及373 Kbits分布式RAM。
对比一下Altera不久发布的65纳米低成本FPGA Cyclone III,如果只是从双方公布的参数上来看,可以发现Spartan-DSP产品的性能指标比Cyclone III系列中最高端产品略低,如DSP频率,逻辑单元数量和存储器容量。Cyclone III含有5K至120K逻辑单元(LE),288个数字信号处理(DSP)乘法器,乘法器性能达到了260MHz,存储器达到4Mbits。
不过,Xilinx宣称Spartan-3A DSP的实际性能反而领先,吴晓东向记者强调说:“我们非常有信心,Spartan-DSP的DSP性能不是一般优于其他的DSP,而是特别优于其他产品。”他介绍说,关键在于Xilinx采用的是很先进的DSP48A逻辑片架构,而竞争对手还采用的是乘法器。Spartan-3A DSP架构的核心是新的成本优化的XtremeDSP逻辑片(DSP48A),可支持设计人员实现许多独立的算法功能。该架构还支持将多个DSP48A逻辑片连接起来完成宽输入数学运算功能、DSP滤波器以及复杂算术功能,不需要使用通用逻辑构造资源。因此可以降低功耗,提供极高性能并可高效率地利用硅片面积和资源。与其它高性能可配置器件相比,新推的DSP48A逻辑片可将通用FIR滤波器的功耗降低多达50%。
对于DSP48A逻辑片和乘法器的区别,他解释说,DSP数字信号处理的演进是这样的,把逻辑固化为乘法器,然后把它提升更高的阶段,变成一个乘法累加单元(MAC单元),也就是逻辑片,为什么这么做呢?因为数字信号处理并不是简单的乘法,会碰到很多乘和乘累加,还有比较,还有计数,还有矩阵运算和桶式移位等很多复杂计算,如果都是通过乘法器来做的话,同时需要信号处理专家和FPGA专家才可以做到,而逻辑片可以很简单地支持这些计算。简单地说来,乘法器是一种软DSP实现方法,需要消耗FPGA的逻辑和存储资源,而且从时间、可靠性和效率上来讲都是处于一种不能够预见的状况;而逻辑片是一种硬DSP实现方法,节省了FPGA的资源,大大提高了效率和降低了功耗。
高清视频监控中Xilinx FPGA作为TI达芬奇平台的协处理器
吴晓东宣称,正是因为我们的逻辑片架构,因此Spartan-DSP不需要那么多的逻辑单元和存储器,反而在性能上超过竞争对手。他向记者强调说:“竞争对手最高才可以达到260MHz,而且还需要精通信号处理的专家和FPGA专家,而我们是能够保证用户最少可以到250MHz,一个对FPGA不是很熟悉的DSP设计人员就可以轻易跑到250MHz,250MHz是下限,而上限没有给出,这取于用户,一些有经验的用户跑到300MHz以上都有可能。”
Xilinx公司现在就可提供Spartan-3A DSP平台3SD3400A 器件的工程样品,而3SD1800A器件的工程样品到本季度末就可提供。3SD3400A器件的单价为44.95美元,3SD1800A为29.85美元(2008年末2.5万件批量供货单价)。