快捷搜索:

基于DSP和模板匹配算法的实时图像跟踪处理系统

本文具体先容了基于高机能TigerSHARC DSP 处置惩罚模块和模板匹配算法(templatematching)的实时图像跟踪处置惩罚系统的优化设计措施;深入阐发了SAD 操作中涉及到的地址对齐问题,提出了一种优化的设计规划,将并处置惩罚效率前进20 倍,并在实际的实时图像跟踪系统中获得利用。

1. 小序

跟着电子技巧的赓续进步,今朝越来越多的实用数字图像跟踪系统采纳高机能DSPCOST 模块实现快速构建实时处置惩罚原型[1]。在浩繁型号的DSP 处置惩罚芯片中,TIgerSHARC 系列DSP 处置惩罚用具有大年夜的定点、浮点处置惩罚能力,成为今朝天下上最快的浮点DSP 处置惩罚器,因为其具有强大年夜的可扩展能力,TIgerSHARC DSP 处置惩罚器也不停引领可扩展并行多DSP 实时处置惩罚系统的成长偏向,被称为“多DSP 系统实现的标准”[2]。同时,TIgerSHARC DSP 处置惩罚器对字节数据的处置惩罚供给了优越的支持,例如,支持基于字节的SAD(SUM-ABS-Difference)操作,异常得当构建实时图像处置惩罚系统。但因为严重的地址对齐问题,必要对系统进行优化设计,以实现在满意严格的实时性要求的前提下,限定系统规模,低落系统资源。

2. 实用实时图像跟踪处置惩罚系统

2.1 实时图像跟踪处置惩罚系统组成

首先给出实用实时成像处置惩罚系统的布局组成框图,如图1 所示,系统包括PMC 视频采集模块,TIgerSHARC DSP 处置惩罚模块(内部集成4 片TigerSHARC DSP 处置惩罚器),cPCI 工控机主板,节制手柄和VGA 显示器等。视频采集板的输入为PAL 制式诟谇图像旌旗灯号,输出768×288×8-bit 的数字图像数据并经由过程TigerSHARC DSP 专用的LINK 接口以每场20 毫秒的距离送至TigerSHARC DSP 处置惩罚模块进行模板匹配(template matching)检测算法。之后, DSP 处置惩罚模块在原始图像上叠加目标信息,经由过程cPCI 工控机主板传送到VGA 显示器进行显示。国家 863 计划:基于空天平台的实时数据处置惩罚技巧(2006AA701415)

2.2 模板匹配算法

模板匹配算法是在一幅图像场景中检测目标的基础算法,将已知的目标图像模板在一幅未知图像场景中滑动,并与对应的未知场景图像块进行对照,假如结果足够靠近,就将该图像块标识为目标。一样平常采纳目标模板与未知场景图像块之间的各像素值的差异绝对值之和的形式来度量其靠近程度。如下式所示, 此中各像素之间的运算操作定义为SAD(SUM-ABS-Difference),全部历程如图2 所示。某目标模板T,为M×N 维的像素阵列,以像素为单位在未知图像场景中沿水平偏向和垂直偏向依次滑动。每滑动一步,T 即与未知图像场景中对应的待检测像素矩阵S 进行如式1 所示的SAD 操作,并将所得结果D(i,j)作为靠近程度的度量(Difference measure)存入度量矩阵D,此中,S 是与T 同样大年夜小的像素矩阵。

2.3 SAD 模板匹配中的地址对齐问题

TigerSHARC 处置惩罚器的ALU 供给了对SAD 操作的指令支持,如图3a 所示。在一个时钟周期(3.3ns/300MHz/ADSP-TS101S)内,单个ALU 可以经由过程指令PR+=ABS(BRmd-BRnd)完成模板T 中8 个像素的SAD 操作,此中PR 为处置惩罚器ALU 中的64-bit 累加器,用于存储SAD 操作中图像字节数据的累加结果。BRmd 和BRnd 均为32-bit×2 的寄存器对,分手读取T 和S 中的8 个对应像素字节数据。由于TigerSHARC DSP 处置惩罚器为双核布局,具有两个ALU,以是,其单周期最多可以完成模板T 中16 个像素的SAD 操作。显而易见,使TigerSHARC DSP 处置惩罚器的指令流水线中不间断地履行SAD 指令是得到其峰值处置惩罚能力的需要前提,而其ALU 从内存取操作数时孕育发生的地址对齐问题则是制约处置惩罚效率提升的主要瓶颈。

如图 3b 所示,SAD 指令履行时前,两个ALU 分手必要从内存读8 个字节目标模板数据和8 个字节待检测场景图像数据至内部寄存器,且要求该数据寄放首地址须为64-bit 对齐,否则会导致内部总线造访非常。T 与S 虽然是同样大年夜小的像素矩阵,但其大年夜小一样平常弘远年夜于16 个字节,在T 内地数据地址是继续的,而S 作为从场景图像中切割出的一部分,其地址平日不继续。同时,跟着T 在场景图像中赓续以字节为单位逐行滑动,地址对齐问题所造成的效率丧掉会加倍凸起,势必必要对非对齐的数据地址进行谋略,琐屑字节数据的收聚拢并(bytes adjust and merging),以及异常繁杂的多重轮回节制。以单片TigerSHARC DSP 处置惩罚器对处置惩罚效率进行评估,经编译器优化过后的ANSI C 法度榜样,可以实现在100ms 阁下完成一场背景图像匹配义务。以此谋略,至少必要将背景数据分为5 个部分,并分配至5 个TigerSHARC DSP 处置惩罚器中,才可以勉强达到20ms 实时性要求的下限,这样,系统内就不得不添加一个TigerSHARC DSP 处置惩罚模块,这对付功耗、资源、重量、体积等指标都是弗成吸收的。是以,直接实现如式1 和图3 所表示的谋略历程是弗成行的,必须斟酌优化的谋略规划。

3. SAD 优化设计规划

从新对图2 中描述的SAD 历程进行阐发,发明T 中的每一个字节像素在背景图像中必要滑动的次数是一样的,因为其每一次移动的谋略结果都存入D 的对应位置,是以滑动次数与D 中的元素个数也是一样的,且为逐一对应。换句话说,D 中的某一个元素涉及到T中的整个字节像素的某一次滑动。则根据加法结合律,可由式1 得出优化后的SAD 处置惩罚历程如下式所示。

如同蚂蚁迁居,可以先使T 中16 个字节像素数据在背景图像上滑动,进行应有的SAD4操作,并将每一次滑动获得的结果存入D 中的对应位置,这时D 的累加和为中心结果;再使T 中的之后的16 个字节像素数据在背景图像上完成滑动SAD 操作,并将这次的结果与前次保存在D 中的中心结果相加,再存入响应位置,以此类推,直至T 中的整个字节像素数据完成滑动,并更新D 中累加结果。根据上式可得优化实现规划如图6 所示,优化规划与直接实现规划比拟,并没有削减SAD 操作的次数,但因为调剂了算法履行布局,和运算序次,大年夜大年夜提升了造访内存数据的效率,简化了实现流程,处置惩罚器指令流水线获得了较好的组织。对前述同样的处置惩罚义务进行评估,优化实现规划可以应用1 个TigerSHARC DSP 处置惩罚器在5ms 内完成。由于在优化实现规划中,T 内的数据具有优越的可分性,采纳2 个TigerSHARC DSP 处置惩罚器在2.6ms 内便可完成。采纳优化实现规划不只可以很好的提升系统的实时机能,而且还可以削减一个TigerSHARC DSP 处置惩罚模块,大年夜大年夜低落了系统的繁杂度,体积,功耗和资源。同时还可以供给约15ms 的光阴供压缩,传输等其他处置惩罚义务分配。

4. 结论

本文胪陈了一种实用的实时数字图像跟踪系统的优化设计措施,指出了地址对齐问题在处置惩罚系统优化设计中的紧张性,着重针对模板匹配处置惩罚算法进行了立异的优化设计实现,满意了系统整体对实时性、功耗、体积、资源等多方面的需求。该系统实现在实际工程中收到了优越的效果,实际系统组成如下图所示。

您可能还会对下面的文章感兴趣: