近日,在由全球多媒體領(lǐng)域頂級(jí)學(xué)會(huì)ACM MM主辦的“大規(guī)模復(fù)雜場(chǎng)景人體視頻解析”挑戰(zhàn)賽中,依圖算法奪得第一,評(píng)價(jià)指標(biāo)wf-mAP@avg達(dá)0.26,將以往學(xué)術(shù)界中的基準(zhǔn)算法提升了近3倍,以絕對(duì)優(yōu)勢(shì)奪得“行為識(shí)別”賽道冠軍。
行為識(shí)別是指以人為基礎(chǔ)單位,只分析人的行為,關(guān)注單人的動(dòng)作以及多人的動(dòng)作。這項(xiàng)技術(shù)正在智能城市、安全生產(chǎn)、智能商業(yè)、智慧娛樂(lè)等社會(huì)生產(chǎn)生活的方方面面起到作用,比如實(shí)時(shí)檢測(cè)工人是否遵循操作流程生產(chǎn)作業(yè)以防暴力分揀、針對(duì)短視頻中人的行為進(jìn)行摘要理解從而自動(dòng)為用戶推薦視頻。
學(xué)術(shù)界以往常用f-mAP@avg來(lái)作為行為識(shí)別的評(píng)價(jià)指標(biāo),此次競(jìng)賽采用的評(píng)價(jià)指標(biāo)wf-mAP@avg更注重對(duì)難度較大的擁擠場(chǎng)景的考察和少見(jiàn)動(dòng)作的識(shí)別,同時(shí)對(duì)于人體框的定位精確性要求也更高。
由于挑戰(zhàn)賽是首次舉辦,參賽團(tuán)隊(duì)在賽前無(wú)法獲取識(shí)別的類(lèi)別、數(shù)據(jù)集的大小和識(shí)別的具體需求。在不到兩個(gè)月里,依圖將算法與場(chǎng)景進(jìn)行深度結(jié)合,從視頻中自動(dòng)提取到了準(zhǔn)確豐富的場(chǎng)景信息,并借助多年來(lái)的算法積淀和對(duì)行業(yè)場(chǎng)景的理解等“先驗(yàn)知識(shí)”,對(duì)特定的14類(lèi)任務(wù)進(jìn)行了深度算法優(yōu)化。
在此基礎(chǔ)上,依圖團(tuán)隊(duì)在僅使用單模型的情況下,取得了優(yōu)于其他團(tuán)隊(duì)使用復(fù)雜多模型融合策略取得的成績(jī)。同時(shí),這也意味著依圖仍可以進(jìn)一步通過(guò)融合多個(gè)模型提升算法性能。
目前,依圖行為識(shí)別算法的性能仍在持續(xù)迭代,實(shí)際運(yùn)用該技術(shù)落地實(shí)戰(zhàn)的項(xiàng)目難度已遠(yuǎn)超比賽的數(shù)據(jù)集。未來(lái),依托于高性能自研AI芯片,依圖將加速AI技術(shù)落地、解鎖更多城市生產(chǎn)生活場(chǎng)景。
(轉(zhuǎn)載)