中国·芯片交易在线
首页 | 供应信息 | 求购信息 | 库存查询 | 新闻中心 | 展会资讯 | IC厂商 | 技术资料 | 自由区域
   新闻首页 |  行业动态 | 新品发布 | 政策法规 | 科技成果 | 模拟技术 | 嵌入系统 | 传感控制 | 存储设计  
当前位置:IC72首页>> IC新闻中心>> 嵌入系统 >>电子行业新闻正文

基于ARM的除法运算优化策略

时间:2007/2/7 9:56:00  作者:  来源:ic72  浏览人数:1603
 
 

      与传统的4/8位单片机相比,ARM的性能和处理能力是遥遥领先的。但与之相应,ARM的系统设计复杂度和难度,较之传统的设计方法也大大提升了,同时也大大拓展了针对ARM芯片特性进行优化的空间,例如针对指令流水线的优化、针对寄存器分配进行的优化等。

      ARM在硬件上不支持除法指令,编译器是通过调用C库函数来实现除法运算的,有许多不同类型的除法程序来适应不同的除数和被除数。但直接利用C库函数中的标准整数除法程序,根据执行情况和输入操作数的范围,要花费20~100个周期,消耗较多的软件运行时间。在实时嵌入式应用中,对时间参数较为敏感,故可以考虑如何优化避免除法消耗过多的CPU运行时间。

      除法和模运算(/和%)执行起来比较慢,所以应尽量避免使用。但是,除数是常数的除法运算和用同一个除数的重复除法,执行效率会比较高。在ARM中,可以利用单条MUL指令实现乘法操作。本文将阐述如何用乘法运算代替除法运算,以及如何使除法的次数最少化。

      1  避免除法运算

      在非嵌入式领域,因为CPU运算速度快、存储器容量大,除法操作通常都是不加考虑直接使用的。但在嵌入式领域,首先需要考虑的是这些除法操作是否是必须的。以对环形缓冲区操作为例,经常要用到除法,其实完全可以避免这些除法运算。

ic72新闻中心

      假定有一个buffer_size大小的环形缓冲区,如图1所示,0ffset指定目前所在的位置。通过increment字节来增加offset的值,一般是这样写的:

      0ffset=(Offset+increment)%buffer_size;

      效率更高的写法是:

      offset+=increment;

      if(offset>=buffer_size){

      offset一=buffer_size;

      }

      第一种写法要花费50个周期,而第二种因为没有除法运算,只须花费3个周期。这里假定increment

      如果不能避免除法运算,那么就应尽量使除数和被除数是无符号的整数。有符号的除法程序执行起来更加慢,因为它们先要取得除数和被除数的绝对值,再调用无符号除法运算,最后再确定结果的符号。

      2  充分利用商和余数

      许多C语言库中的除法函数返回商和余数。换句话说,每一个除法运算,余数是可以无偿得到的,反之亦然。例如,要在屏幕缓冲区找到偏移量为offset的屏幕位置(x,y),可以这样写:

      typeclef struct{

      int  x;

      int y;

      }point;

      point getxy_v1(unsigned int offset,unslgned int bytes_per_line){

      point p;

      p.y=offset/lt)ytes_per_line;

      p.x=offset -   p.y*  bytcs_per_line;

      return p;

      }

      这里,似乎对p.x使用减法和乘法,少了一次除法运算;但是,实际上使用模运算或者取余操作效率更高,对getxy_vl改进如下:

      point getxy_v2(unsigned int offset,unsigned int bytes_per_line){

      point P;

      P.x=offset%bytes_per_1ine;

      P.y=offset/bytes_per_line;

      return P;

      从下面编译器的输出结果可以看到,只有一次除法调用。实际上,这个程序要比前面的getxy_vl少4条指令(注意,并不是对所有的编译器和C库都有这样的结果)。getxy_v2

      STMFD r13!,{r4,r14};保存r4,lr人堆栈

      MOV  r4,rO      ;赋值后r4保存的为点P基址

      MOV  rO,r2      ;rO=bytes_per_line

      BL      rt_udiv      ;调用无符号除法例程

      (r0.;r1)=(rl/rO,rl%rO)

      STR      r0,[r4,#4]  ;P.y=offset/bytes_per_line

      STR  rl,[r4,#o]  ;P.x=offset%bytes_per_line

      LDMFD r13!,(r4,pc);恢复上下文,返回

      3  把除法转换为乘法

      在程序中,同一个除数的除法经常会出现很多次。在前面的例子中,bytes_per_line的值在整个程序中都是固定不变的。又如3到2笛卡尔坐标变换,其中就使用了同一个除数两次:

      (x,Y,x)→(x/z,y/z)

      这种情况下,使用cache指令中的值1/z,并使用1/z的乘法来代替除法运算,效率会更高。另外,要尽可能使用int类型的运算,避免使用浮点运算。

      下面将更加偏重于从数学和理论的角度分析,把重复除法转换成乘法运算。

      下面来区分精确数学意义上的除法和整型除法运算:

      ◇n/d,即整数n被分成整数d份,结果趋向于O(与C语言相同);

      ◇n%d,即n被d除之后的余数,就是n--d(n/d);

      ◇n/d=n·d-1,即真正数学意义上的n被d除。

      当使用整型除法时,最容易估算d-1值的方法是计算232/d。然后,就可以估算n/d为:

      (n(232/d))/232      (1)

      在执行n的乘法时,需要精确到64位。对于这种方法,会出现如下问题:

      ◇为了计算232/d,由于一个unsigned int类型的数据放不下232,编译器要使用64位long long类型的数,而且必须指定除法为(1 ull<<32)/d。这种64位的除法比32位的除法执行起来要慢得多。

      ◇如果d碰巧是1,那么232/d就不再适合于un—signed int数据类型。

      上面的做法似乎很好,而且解决了这两个问题。那么,再来看一下用(232一1)/d代替232/d。

     

      s=0xffffffff ul/d      (2)

      ic72新闻中心

      以上n/d-2,q,n/d+1为整数值,所以可得q=n/d或q=(n/d)一1,即初步估计的结果q与正确值n/d有可能存在偏差1。可以发现,通过计算余数r=n—q·d(O≤r<2d)是比较容易的。下面的代码纠正了这个结果:

      r=n--q*d;/*初步估计结果余数r的范围为O≤r<2d*/

      if(r>=d){/*若需要校正*/

      r-=d;/*校正r,使O≤r

      n++;/*相应商加1进行校正*/

      }      /*得正确结果q=n/d和r=n%d*/

      下面给出一个实例,用上面的算法完成了N个元素的数组被d除。首先,计算上面所说的s值,然后用乘以5来代替每个被d除的除法。64位的乘是很容易实现的,因为ARM中有一条指令UMULL,可以进行2个32位数相乘,给出一个64位的结果。

      void scale(

      unsigned int*dest;      /*目的数据*/

      unsigned int*src;      /*源数据*/

      unsignedInt d;      /*分母d*/

      urlslglaedInt N;)      /*数据长度*/

      {

      unsigned int s=0xFFFFFFFFu/d;

      do{

      unsigned int n,q,r;

      n=*(src++);

      q=(urtslgrted int)(((unsined tong long)n*s)>>32);

      r=n*d;

      if(r>=d){      /*若需要对商进行校正*/

      q++;

      }

      *(dest++)=q;

      }while(一一N);

      }

      这里假定除数和被除数都是32位的无符号整数。当然,使用32位乘法进行16位的无符号数计算,或者使用1 28位乘法进行64位数计算,运算规则是一样的。可以为特定的数据选择最窄的运算宽度。如果数据是16位的,那么就设置s=(216一1)/d,然后用标准的整型乘法来求值q。

      4  结  论

      在嵌入式软件编程中,为了节省CPU运行时间,应尽可能避免使用除法。对环形缓冲区的处理可以不用除法。如果不能避免除法运算,那么应尽可能使用除法程序同时产生商n/d和余数n%d的好处。对于重复对一除数d的除法.预先计算好s=(2k一1)/d,用乘以s的2k位乘法来代替除以d的k位无符号整数除法,可大大减少由于直接使用除法操作引入的指令周期数。

 
【相关文章】
·为嵌入式软件建立统一软件系统框架的方法
·MPC555的发动机电控单元最小系统设计
·U-Boot在S3C2410上的移植
·基于GPS定位的嵌入式汽车监控器设计
·AT91RM9200在嵌入式税控POS系统中的应用
·指针、结构体、联合体的安全规范
·基于ARM的除法运算优化策略
·基于Wi-Fi的可视电话设计方案分析
·MCF5282在电力系统监控中的应用
 
 
IC新闻搜索
 
热点新闻
基于红外超声光电编码器的室内移动小车定位系
基于闪烁存储器的TMS320VC5409DSP并行引导装载方法
非移动市场需求飙升,ARM预计2010年出货量超50亿片
一种快速响应的电容式湿度传感器感湿薄膜设计
利用特殊应用模拟开关改进便携式设计
无线传感器网络跨层通信协议的设计
基于ARM9内核Processor对外部NAND FLASH的控制实现
基于GSM技术的汽车防盗系统的设计
热电阻在烟叶初烤炕房温度控制中的应用
高速数据转换系统对时钟和数据传输的性能要求
友情连接
 关于我们  IC论坛  意见反馈  设置首页  广告服务  用户帮助  联系我们
copyright:(1998-2005) IC72 中国·芯片交易在线
(北京)联系电话:(010)82614113、82614123 传真:(010)82614123 客户服务:service@IC72.com 库存上载:IC72@IC72.com
在线MSN咨询:ic72sale8@hotmail.com 通信地址:北京市西城区西直门内大街2号大厦15层 邮政编码:100013
(深圳)联系方式: 在线MSN咨询:ic72sale6@hotmail.com 在线QQ咨询:191232636 通信地址:深圳市福田区振华路
注 册 号: 1101081318959(1-1)

A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9