作为参考,仍然用 150 MHz 频率,Spartan 3A-DSP 1800A 器件仅使用整个 FPGA 器件的 70% 即可并行处理多达 23 个块(70%×16,640 Slice/508 Slice/块 = 23 块)。与此对应的最高性能是 3,529 MMAE/s,这至少要比 600 MHz 的 TI DSP-CPU 的最高性能高 25 倍。
结论
我们以汽车视觉应用为例说明了如何利用中型低成本 Xilinx FPGA 的可编程并行处理能力提供超过 VLIW DSP-CPU 的处理性能。表 4 列出了我们的分析结果。
请注意,对于 12 位像素数据的 4 x 4 块的 MAE 计算,Spartan-3A DSP 的性能仅以四分之一时钟速度即可达到 TI TMS320DM6437 的两倍。另外,FPGA 的资源占用率仅为 6%,因此可以在同一器件上实现其他图像处理功能(必要时可采纳并行处理)。
另一方面,VLIW DSP-CPU 在 SAD 计算期间被完全占用,消耗串行处理器长指令的可用时隙,因此很少有机会同时执行其他功能。
我们对于 FPGA 的估算时钟频率相当保守(以 150 MHz 对 250 MHz),对于运动估算的搜索区也是如此(搜索区越大,需要计算的 MAE 的数量就越多)。例如,30×30 的搜索区需要 609 MMAE/s 的性能(远远超过 VLIW DSP-CPU 的能力),然而却仅占用 1800A 器件上 Slice 的 12%。
最后,我们在实现 MAE 时根本未使用 DSP48 MAC 单元:据我们估计,如果用四个 DSP48 单元取代由 100 个 Slice 组成的加法器树,则一个 12 位输入数据 MAE 的 4×4 块会占用 400 个 Slice(782 个触发器和 400 个 LUT)和四个 DSP48。
因此,Spartan-3A DSP 1800A 器件非常适合需要极高处理性能、灵活性和可缩放性的视觉应用,如未来型汽车驾驶员辅助系统中的视觉应用。
本文关键字:汽车 DSP/FPGA技术,单片机-工控设备 - DSP/FPGA技术