導讀:你的物體檢測器足夠魯棒嗎,可以試試下面的6中場景。
你的物體探測器能檢測出下圖中的人和馬嗎?
如果同樣的圖像旋轉90度會怎樣?還能探測到人和馬嗎?
這些圖片里的貓可以檢測出來嗎?
我們在計算機視覺方面已經取得了長足的進步。在某些任務中,使用人工智能的目標檢測算法已經超過了人類。但是,為什么當圖像旋轉90度時,仍然很難檢測出一個人,如果它以一個不尋常的姿勢躺著,那么就檢測出一只貓,或者如果一個物體只有部分可見,那么就檢測出它。
從2012年AlexNet開始,針對目標檢測和分類建立了很多模型,并且在準確性和效率方面都在不斷提高。然而,大多數(shù)模型都是在理想的場景中訓練和測試的。但在現(xiàn)實中,使用這些模型的場景并不總是理想的:背景可能雜亂,對象可能變形,或者可能被遮擋。以下面貓的圖片為例。任何經過訓練可以檢測貓的物體檢測器都會檢測到左邊圖像中的貓,無一例外。但對于右邊的圖像,大多數(shù)檢測器可能無法檢測到貓。
對人類來說微不足道的任務對計算機視覺來說無疑是一個挑戰(zhàn)。我們人類很容易識別出一個人,無論是在任何方向的圖像,或不同姿勢的貓,或從任何角度看一個杯子。
讓我們來看看穩(wěn)定地檢測物體的6個這樣的障礙。
1、視角變化
一個物體從不同的角度看可能會完全不同。舉一個簡單的杯子的例子(參考下面的圖片),第一張圖片顯示的是一個黑咖啡的杯子的俯視圖與第二張圖片顯示的有卡布奇諾的杯子的側視圖和俯視圖完全不同,第三張圖片顯示的是杯子的側視圖。
這是目標檢測的挑戰(zhàn)之一,因為大多數(shù)檢測器只接受特定視角的圖像訓練。
2、變形
許多物體都不是剛體,而且會以極端的方式變形。舉個例子,讓我們看看下面練習瑜伽修的人的不同姿勢的圖片。如果目標檢測器被訓練來檢測一個人的訓練,只包括人坐,站,或行走,它可能無法檢測這些圖像中的人,因為這些圖像中的特征可能不匹配它在訓練期間了解到的人。
3、遮擋
目標可能被遮擋。有時只有一個物體的一小部分,只有很少的像素是可見的。
例如,在上圖中,物體(杯子)被手持杯子的人擋住了。在大多數(shù)情況下,當我們只看到一個物體的一部分時,我們可以立即辨認出它是什么。然而,物體檢測器卻不一樣。
遮擋的另一個例子是一個人拿著手機的圖像。在這些圖像中檢測手機是一個挑戰(zhàn):
4、光照條件
光照在像素級上的影響是劇烈的。物體在不同的光照條件下表現(xiàn)出不同的顏色。例如,一個室外監(jiān)控攝像頭全天暴露在不同的照明條件下,明亮的日光,夜晚和夜間的光。行人的圖像在這些變化的照明看起來不同。這影響了檢測器對目標的魯棒檢測能力。
5、雜亂和相似紋理的背景
感興趣的目標可能會混入背景中,使他們難以識別。例如,下面圖片中的貓和狗是和地毯混在了一起。在這種情況下,物體檢測器將面臨檢測貓和狗的挑戰(zhàn)。
6、類內多樣性
感興趣的目標通??梢允潜容^寬泛的,比如一座房子。這些目標有許多不同類型,每一種都有自己的外觀。下面所有的圖片都是不同類型的房子。
一個好的檢測器必須足夠健壯,能夠檢測到所有這些變化,同時還能保持對類間差異的敏感性。
解決方案
為了創(chuàng)建一個魯棒的目標檢測器,確保對于不同的視角、光照條件和不同背景的目標,訓練數(shù)據(jù)有良好的變化。如果你無法找到所有變化的真實訓練數(shù)據(jù),請使用數(shù)據(jù)增強技術來合成你需要的數(shù)據(jù)。
英文原文:
https://towardsdatascience.com/6-obstacles-to-robust-object-detection-6802140302ef
(轉載)