賽靈思 INT8 優(yōu)化為使用深度學(xué)習(xí)推斷和傳統(tǒng)計算機(jī)視覺功能的嵌入式視覺應(yīng)用提供最優(yōu)異的性能和能效最出色的計算方法。與其他 FPGA DSP 架構(gòu)相比,賽靈思的集成 DSP 架構(gòu)在 INT8 深度學(xué)習(xí)運算上能實現(xiàn) 1.75 倍的解決方案級性能。
本白皮書探討將 INT8 運算用于實現(xiàn)在賽靈思 DSP48E2 片上、使用深度學(xué)習(xí)推斷和計算機(jī)視覺功能的嵌入式視覺應(yīng)用,以及這種方案與其他 FPGA 的對比。與占用相同資源數(shù)量的其他 FPGA 相比,賽靈思的 DSP 架構(gòu)對 INT8 乘法累加(MACC) 運算能實現(xiàn) 1.75 倍的峰值解決方案級性能。由于嵌入式視覺應(yīng)用可以在不犧牲準(zhǔn)確性的情況下使用較低位精度,因此需要高效的 INT8 實現(xiàn)方案。
賽靈思的 DSP 架構(gòu)和庫針對 INT8 運算進(jìn)行了精心優(yōu)化。本白皮書介紹如何使用賽靈思 16nm 和 20nm All Programmable 器件中的 DSP48E2 Slice,在共享相同內(nèi)核權(quán)重的同時處理兩個并行的 INT8 MACC 運算。本白皮書還闡述了要運用賽靈思這一獨特技術(shù),為何輸入的最小位寬為 24 位。此外本白皮書還詳細(xì)介紹了如何以 SIMD 模式使用 DSP48E2 Slice,供基本算術(shù)運算使用。另外還提供在深度學(xué)習(xí)領(lǐng)域或其他計算機(jī)視覺處理任務(wù)領(lǐng)域如何將這些功能用于嵌入式視覺的實例。
全書目錄
用于深度學(xué)習(xí)和計算機(jī)視覺的 INT8
賽靈思 DSP Slice 片上的 INT8 運算
可擴(kuò)展的 INT8 優(yōu)化
DSP48E2 SIMD 模式
映射 INT8 優(yōu)化到深度學(xué)習(xí)應(yīng)用
創(chuàng)建 INT8 鏈接 MACC 的其他方法
映射 INT8 優(yōu)化到計算機(jī)視覺功能
使用可擴(kuò)展 INT8 優(yōu)化的定制 2D 卷積
使用 SIMD 運算的中值濾波器
競爭分析
在競爭分析中使用英特爾的 Arria 10 器件與賽靈思的 Zynq? UltraScale+ ? MPSoC 對比。在進(jìn)行嵌入式視覺應(yīng)用計算效率比較時,選擇的器件有可比的 DSP 密度和器件功耗:
? Arria 10 SoC :SX220、SX270 和 SX480
? Zynq UltraScale+ MPSoC :ZU3、ZU7 和 ZU9 器件
重點比較能用于包括深度學(xué)習(xí)和計算機(jī)視覺在內(nèi)的眾多應(yīng)用的通用 MACC 性能。
(轉(zhuǎn)載)