基于深度知識遷移的機(jī)器人功能區(qū)域自動檢測方法

文:中山大學(xué) 成慧 蘇竟成 蔡俊浩 林倞&商湯集團(tuán)有限公司 張展鵬2018年第三期

     在實際生活中機(jī)器人需要與環(huán)境進(jìn)行交互以執(zhí)行多種任務(wù),而每個任務(wù)都需要進(jìn)行合理的定位。一種簡單的定位檢測方法是標(biāo)注一個圖像功能區(qū)域數(shù)據(jù)集,利用這個數(shù)據(jù)集訓(xùn)練一個深度分類模型,通過模型檢測圖像中所有可能的潛在功能區(qū)域。然而,標(biāo)注一個這樣的大規(guī)模數(shù)據(jù)集是相當(dāng)耗時的。

    我們發(fā)現(xiàn),功能區(qū)域通常與周圍物體存在聯(lián)系,因此本文提出了利用物體的上下文信息作為有效先驗的方法,使用已有的目標(biāo)檢測數(shù)據(jù)集,在不需要額外增加標(biāo)注數(shù)據(jù)的同時,提高功能區(qū)域檢測模型的性能。在具體實現(xiàn)中本文定義了一個雙流網(wǎng)絡(luò),該網(wǎng)絡(luò)結(jié)合了與物體相關(guān)的特征和與功能區(qū)域相關(guān)的特征來進(jìn)行知識遷移融合,從而進(jìn)行功能區(qū)域檢測。整個網(wǎng)絡(luò)結(jié)構(gòu)是端到端的系統(tǒng),并且可以簡單的利用現(xiàn)有的目標(biāo)檢測框架實現(xiàn)。本文通過實驗證明該網(wǎng)絡(luò)與現(xiàn)有的方法相比,在精度和召回率上都有接近20%的提升。

    課題背景

    對于一個認(rèn)知機(jī)器人而言,在實際執(zhí)行操作之前首先需要找到其所期望操作的區(qū)域。例如,當(dāng)機(jī)器人想要去打開一個抽屜時,它需要根據(jù)抽屜手柄的形狀和位置來判斷它究竟是否需要轉(zhuǎn)動手柄抓取以及應(yīng)該在哪里執(zhí)行這一動作。給定輸入為場景圖像,這種操作區(qū)域的定位和識別問題可以被定義為功能區(qū)檢測問題[24]。有了功能區(qū)域的認(rèn)知后,在各類任務(wù)中,機(jī)器人可以用許多不同的行為與人類和物體進(jìn)行交互。由于真實世界中的環(huán)境外觀變化的多樣性,這類任務(wù)是非常具有挑戰(zhàn)性的。例如,機(jī)器人要實現(xiàn)“球形物體抓握”的功能,那么目標(biāo)區(qū)域可以是門、抽屜的把手,也可以是其他有著球體形狀的物體。

    因為深度學(xué)習(xí)在目標(biāo)分類和檢測領(lǐng)域已經(jīng)取得了突破性進(jìn)展[9][10][19],因此解決功能區(qū)域檢測問題的一個簡單方法是從圖像中提取一些潛在可能的區(qū)域,通過深層卷積網(wǎng)絡(luò)對這些區(qū)域的功能性進(jìn)行分類[24]。不過這樣做有兩大缺陷:首先,這種方法只利用了圖像中某區(qū)域的特征而忽視了這一區(qū)域的上下文信息,而上下文信息對于由物體遮擋和視角變化引起的外觀變化是十分重要的(如圖1)。例如,水龍頭的閥門通常位于水龍頭的底部附近,而檢測更大面積的水龍頭可以幫助定位到水龍頭的閥門,否則我們很難檢測到閥門。第二點則是因為深度學(xué)習(xí)需要大量的訓(xùn)練數(shù)據(jù),而去標(biāo)注得到一個龐大的功能區(qū)域檢測的數(shù)據(jù)集顯然是非常費力并且代價高昂的。

    通常,更合理地利用上下文或者先驗知識將會有助于解決功能區(qū)域檢測問題。在實際情況中,功能區(qū)域檢測問題并不是一個獨立的問題,它與目標(biāo)檢測問題不同卻又高度相關(guān)。例如,如果一個機(jī)器人檢測到一扇門,那么很有可能在門中的某個區(qū)域能夠讓機(jī)器人進(jìn)行推/拉的動作。因此,圖像中某一區(qū)域或周圍區(qū)域的物體信息可以用來作為功能區(qū)域推斷的先驗知識。另外,物體分類和功能性推斷也共享一些相似的圖像特征,例如圖像邊緣和形狀。因此在給定大量的現(xiàn)有物體數(shù)據(jù)集的條件下,我們可以將從這些數(shù)據(jù)集學(xué)習(xí)到的知識遷移到新的系統(tǒng),這可以減少新系統(tǒng)對于功能區(qū)域訓(xùn)練數(shù)據(jù)的需求。

    為了達(dá)到這個目的,本文提出了一種雙流網(wǎng)絡(luò)結(jié)構(gòu)給來解決該功能性域檢測問題。我們首先使用一個目標(biāo)檢測的數(shù)據(jù)集[12]訓(xùn)練其中一個分支網(wǎng)絡(luò),該網(wǎng)絡(luò)學(xué)習(xí)與物體相關(guān)的表示方式,而另一個網(wǎng)絡(luò)分支則用來學(xué)習(xí)功能性相關(guān)的特征表示。在此之后,我們將這兩個分支網(wǎng)絡(luò)學(xué)習(xí)到的特征融合在一起進(jìn)行功能性的推斷。

    本文工作有以下幾個貢獻(xiàn):1)在解決功能區(qū)域檢測問題時利用物體信息作為先驗知識,提高檢測效果;2)提出了一種新的雙流網(wǎng)絡(luò),通過將物體相關(guān)與功能性相關(guān)的特征融合在

圖1:利用物體的上下文信息促進(jìn)功能區(qū)域檢測

一起,更加有效地解決這類問題。實驗結(jié)果表明,在功能區(qū)域檢測任務(wù)中使用物體特征是一種有效的方法,同時與現(xiàn)有的方法相比,本文的方法也取得了更優(yōu)的效果。

    相關(guān)工作

    A.物體屬性分類

    判斷一個區(qū)域功能性的問題與物體屬性分類的問題類似,后者已經(jīng)在計算機(jī)視覺和機(jī)器人學(xué)中得到了廣泛的研究。例如在面部分析[11]和人類特征分析[14]中,算法對“性別”,“種族”和“發(fā)型”等屬性進(jìn)行研究分析。其他的例如為研究時尚衣著搭配進(jìn)行布料顏色和風(fēng)格的分析[25]等屬性分析任務(wù)也是比較熱門的研究方向。而在機(jī)器人領(lǐng)域中,利用RGB-D圖像來進(jìn)行物體顏色,形狀和材質(zhì)屬性的識別也十分的廣泛[25]。

    而物體的“可供性(affordance)”也是一種關(guān)鍵的屬性,這種屬性是本文研究的重點。物體的“可供性”是指一個物理對象與人或其他智能體之間通過交互而產(chǎn)生的一種聯(lián)系[8]。Pieropan等人[17]根據(jù)這種聯(lián)系來研究物體分類,并借助人的示范來學(xué)習(xí)對象的可供性,例如“可讀”和“可飲用”就是一種“可供性”最近,Myers等人[15]使用手工制作的幾何特征檢測RGB-D圖像中工具部件的可供性[20]。本文研究的問題與這些問題有些關(guān)聯(lián)但不完全相同,因為本文研究的問題的首要核心在于區(qū)域而非是物體。本文研究的算法需要檢測出可能的功能區(qū)域,這個區(qū)域既有可能是一個物體,也有可能是物體的一小部分。這個問題更具挑戰(zhàn)性,因為物體的局部的特征可能不像整個物體那樣具有區(qū)分性。

    B.目標(biāo)檢測

    目標(biāo)檢測在圖像語義檢測領(lǐng)域中受到了廣泛的研究。早期的算法通常嘗試使用一個滑窗在一整幅圖像上進(jìn)行滑動并對每個區(qū)域進(jìn)行分類。為了處理物體的尺度變化,圖像金字塔(imagepyramid)模型常被用來處理原始的輸入圖像。基于部分區(qū)域可變的模型(DPM)[6]也是一種經(jīng)典的目標(biāo)檢測方法,其中每個物體對象被表示為以圖畫結(jié)構(gòu)排列而成的成分的集合。每個成分都通過手工制作的特征進(jìn)行描述,經(jīng)典的方法有HOG[4]等。目前,深度學(xué)習(xí)技術(shù)通過學(xué)習(xí)高級的抽象特征,在圖像識別問題方面已經(jīng)取得了實質(zhì)性進(jìn)展。有許多基于深度學(xué)習(xí)的目標(biāo)檢測算法取得了不錯的效果,比如fasterR-CNN[19],YOLO[18]和SSD算法[13]。這些方法的主要思想是使用深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)從給定的原始圖像和相應(yīng)的標(biāo)簽中學(xué)習(xí)物體對象的表示,而不是去學(xué)習(xí)手工設(shè)計的特征表示。本文以基于深度學(xué)習(xí)的目標(biāo)檢測框架為基本結(jié)構(gòu),預(yù)測出場景圖像中的功能區(qū)域。

圖2:功能本體論[24]

    C.功能區(qū)域檢測

    文獻(xiàn)[24]提出了功能區(qū)域檢測這一問題,其給出了一個專業(yè)的定義,并提供了一批數(shù)據(jù)集。這批數(shù)據(jù)集包括室內(nèi)場景的靜態(tài)圖像以及圖像上所有的功能區(qū)域。為了檢測出圖像中的功能區(qū)域,作者提出了一個兩階段的方法[24]。在第一階段,系統(tǒng)使用選擇性搜索的視覺注意力方法[21]來找出一組可能成為功能區(qū)域的邊界框。其中,選擇性搜索方法主要在顏色,強(qiáng)度和邊緣信息等各種視覺特征上實現(xiàn)邊界框的生成。在第二階段中,第一階段尋找出的邊界框所對應(yīng)的圖像區(qū)域則成為了一個深度網(wǎng)絡(luò)的輸入,網(wǎng)絡(luò)的輸出是該區(qū)域?qū)儆谀愁愄囟üδ軈^(qū)域的概率。這個深度網(wǎng)絡(luò)將首先在一個大規(guī)模通用圖像數(shù)據(jù)集上進(jìn)行訓(xùn)練,訓(xùn)練完之后再利用功能區(qū)域數(shù)據(jù)集進(jìn)行微調(diào)。而本文制定了一個新的更容易實現(xiàn)和訓(xùn)練的端到端的雙流網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)能夠分別提取物體相關(guān)的特征和功能相關(guān)的特征并對特征進(jìn)行融合,融合后的特征傳入預(yù)測網(wǎng)絡(luò)中得到功能區(qū)域的邊界框以及對應(yīng)的功能類別。實驗表明本文提出的方法在各個性能指標(biāo)上都有顯著的提升。

    方法

    A.問題定義

    對于功能區(qū)域檢測問題,我們遵循文獻(xiàn)[24]的設(shè)定:假設(shè)機(jī)器人采集靜態(tài)的室內(nèi)圖像作為輸入,輸出一系列矩形框,每一個矩形框都包括了一個目標(biāo)區(qū)域并對應(yīng)著一個功能標(biāo)簽。在定義功能本體論(functionalityontolog)上,前人已經(jīng)有了一些工作:Worgotter等人[22]根據(jù)手跟物體的關(guān)系將操作的動作劃分為一些基本類型。文獻(xiàn)[24]的作者進(jìn)一步研究了一個可以在室內(nèi)環(huán)境中操作的常用動作集合,并且提出了機(jī)器人功能本體集合,如圖2所示。

其中,機(jī)器人的功能本體論一般可以分為3個類型,分別為:“家具、設(shè)備、墻壁的一

圖3:fasterR-CNN的組成結(jié)構(gòu)。利用不用尺度和方向比率的anchorbox,模型可以在一次前向傳播中檢測出不同尺度大小的功能區(qū)域

小部分”,“物體”和“家具”三種。對于“家具、設(shè)備、墻壁的一小部分”這種類型,有兩種主要的功能,分別是與設(shè)備把手相關(guān)的開關(guān)的功能(open),以及與墻壁按鈕相關(guān)的開關(guān)功能(turnon/off)。這兩個主要功能還可以進(jìn)行更加細(xì)致的劃分,比如依據(jù)把手的類型可以將開關(guān)功能分為球形把手的“旋轉(zhuǎn)開關(guān)”和條形把手的“推拉開關(guān)”。依此類推,我們最終可以歸納出11種功能。因此,問題的定義可以描述為:給定一張靜態(tài)場景圖像,識別出圖像中可能出現(xiàn)的11種功能區(qū)域。為了方便可視化,圖2對于每種功能都給出了一個特定的符號。

    B.端到端的多尺度功能區(qū)域檢測

    根據(jù)III-A節(jié)的定義,一個功能區(qū)域既可能是一個物體也有可能是物體的一部分。這意味著功能區(qū)域在圖中大小不一。這種區(qū)域尺度的不確定性對算法更具有挑戰(zhàn)性。早期的方法是在圖像金字塔中使用滑窗進(jìn)行遍歷。然而,這在某些應(yīng)用的場景中效果并不明顯。FasterR-CNN目標(biāo)檢測框架[19]對于解決這種問題則更加有效。

    圖3解釋了fasterR-CNN在目標(biāo)檢測中的處理流程。通常,fasterR-CNN分為兩個模塊。第一個模塊將圖像作為輸入,生成感興趣區(qū)域(regionofinterest)。第二個模塊從感興趣區(qū)域(regionofinterest)中提取更深層次的特征,進(jìn)一步推斷目標(biāo)類別和位置。由于一些小區(qū)域可能會在第一階段丟失,因此需要在不同尺度下對功能區(qū)域進(jìn)行檢測。

    第一個模塊被稱為區(qū)域提議網(wǎng)絡(luò)(RPN,RegionProposalNetwork),它可以通過全卷積網(wǎng)絡(luò)來實現(xiàn)。RPN首先通過特征提取網(wǎng)絡(luò)生成特征圖,特征圖的每一個網(wǎng)格點上的特征向量再傳入一個小的網(wǎng)絡(luò)中,得到預(yù)測的矩形框和對應(yīng)的分?jǐn)?shù)。整個流程如圖3所示,RPN的目標(biāo)輸出為矩形框的坐標(biāo)和對應(yīng)矩形框的分?jǐn)?shù)(更高的分?jǐn)?shù)意味著這個矩形框包含功能區(qū)域的可能性越大)。這里的坐標(biāo)用不同尺度和方向比率的anchorbox來表示。這意味著特征圖中的一個網(wǎng)格點的特征向量(特征的大小是固定的)表示著不同大小的區(qū)域。輸出的候選框可以從自身的特征生成或者根據(jù)額外的周圍的信息生成。通過設(shè)置不同尺度和方向比率的anchorboxes,在不同尺度下網(wǎng)絡(luò)可以充分利用不同區(qū)域的上下文信息來定位區(qū)域,最終得到對應(yīng)的感興趣區(qū)域。

    第二個模塊由另外一個深度網(wǎng)絡(luò)組成,這個深度網(wǎng)絡(luò)由若干卷積層組成,這些卷積層可以進(jìn)行更深層次的特征提取。這個深度網(wǎng)絡(luò)首先根據(jù)感興趣的區(qū)域,從特征提取網(wǎng)絡(luò)提取到的特征中抽選出該區(qū)域的特征作為網(wǎng)絡(luò)的輸入,然后使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行特征提取獲得新的特征,最后進(jìn)行候選框位置的進(jìn)一步回歸微調(diào)與該候選框?qū)?yīng)區(qū)域的功能分類。

    這兩個模塊可以結(jié)合起來進(jìn)行端到端的訓(xùn)練。通過這兩個步驟之后,每一類(即功能區(qū)域)都可能獲得一個或者多個矩形框。每一類中的矩形框相互之間很可能存在高度重合的情形。為了減少這種冗余,本文采用非極大值抑制(NMS)[16]的方法進(jìn)行后處理。

    總之,本文使用RPN來生成不用尺度的候選框并使用fasterR-CNN進(jìn)行功能區(qū)域檢測。然而,因為沒有對物體進(jìn)行標(biāo)注,這種方法不能利用周圍物體的信息,特別是在第二個模塊中這種情況更加明顯。為了發(fā)揮物體信息的優(yōu)勢,本文使用已有的目標(biāo)檢測數(shù)據(jù)集訓(xùn)練一個深度神經(jīng)網(wǎng)絡(luò)并使用功能區(qū)域數(shù)據(jù)集進(jìn)行微調(diào)。實驗證明這種方法可以作為一個有效的基準(zhǔn)實驗。但是由于功能區(qū)域數(shù)據(jù)集的數(shù)量有限,這種方法很容易造成過擬合的情形,同時網(wǎng)絡(luò)中的物體信息會在微調(diào)的過程中消失。為了解決這個問題,本文提出了一種雙流網(wǎng)絡(luò),這個網(wǎng)絡(luò)即使用了與物體相關(guān)的特征,也利用了功能區(qū)域相關(guān)的特征,這一部分將在第III-C節(jié)中介紹。

    C.融合物體信息的雙流網(wǎng)絡(luò)結(jié)構(gòu)

    圖4展示了本文提出的雙流網(wǎng)絡(luò)。將輸入圖像I傳入兩個網(wǎng)絡(luò),這兩個網(wǎng)絡(luò)分別稱之為“功能CNN(CNNfunc)”和“物體CNN”(CNNobj),CNNfunc和CNNobj具有相同的結(jié)構(gòu)(但是兩個網(wǎng)絡(luò)的參數(shù)是不同的)。這兩個網(wǎng)絡(luò)將分別提取功能相關(guān)的特征圖和物體相關(guān)的特征圖。對于功能區(qū)域的特征,我們利用第III-B節(jié)介紹的RPN生成邊界框的集合,接著可以用這些邊界框從特征圖中選出對應(yīng)的特征,再將這些特征通過ROI池化操作[19]得到固定大小的特征。在選擇物體相關(guān)的特征時,首先利用一個固定的縮放系數(shù)來擴(kuò)大邊界框的大小,該擴(kuò)大的邊界框從物體相關(guān)的特征圖中選出與物體相關(guān)的特征,再通過ROI池化操作得到同樣固定大小的特征。最后,利用下面的公式將功能相關(guān)的特征ffunc和fobj物體相關(guān)的特征融合在一起:

ffuesd=入ffunc+(1-入)fobj

其中表示兩個特征的重要性。在實驗中設(shè)為0.5。融合的特征ffuesd傳入另一個深度網(wǎng)絡(luò)CNNpredffuesd)中。CNNpred(ffuesd)最終回歸預(yù)測出功能區(qū)域的位置以及對應(yīng)的功能。

    D物體知識遷移的訓(xùn)練

    為了利用已有的目標(biāo)檢測數(shù)據(jù)集和遷移物體知識,我們將雙流網(wǎng)絡(luò)的訓(xùn)練分為兩個階段。在第一階段,我們需要對網(wǎng)絡(luò)參數(shù)進(jìn)行初始化工作。我們使用已有的目標(biāo)檢測數(shù)據(jù)集,按照fasterR-CNN的訓(xùn)練方式[19]訓(xùn)練一個目標(biāo)檢測網(wǎng)絡(luò),如圖3所示。如文獻(xiàn)[19]所述,整個訓(xùn)練過程通過反向傳導(dǎo)算法和隨機(jī)梯度下降法[2]進(jìn)行端到端的訓(xùn)練。訓(xùn)練好的初始化網(wǎng)絡(luò)的參數(shù)即可作為雙流網(wǎng)絡(luò)的初始化參數(shù),參數(shù)的具體設(shè)置如下:RPN特征提取網(wǎng)絡(luò)中參數(shù)作為雙流網(wǎng)絡(luò)中CNNfunc和CNNobj的參數(shù),而圖3中預(yù)測網(wǎng)絡(luò)的參數(shù)作為雙流網(wǎng)絡(luò)中CNNpred的參數(shù)。其中物體的候選框是對由上半部分的網(wǎng)絡(luò)預(yù)測得到的候選框進(jìn)行放大得到的。提取到的物體特征和功能特征進(jìn)行融合,并傳入預(yù)測網(wǎng)絡(luò)進(jìn)行功能區(qū)域的推斷。

    在第二階段,為了保護(hù)第一階段學(xué)習(xí)到的物體知識,我們固定的CNNobj參數(shù),在用功能區(qū)域數(shù)據(jù)集訓(xùn)練時只微調(diào)雙流網(wǎng)絡(luò)中其余的參數(shù)。與訓(xùn)練fasterR-CNN相同,雙流網(wǎng)絡(luò)中有兩個損失函數(shù)。

    第一個損失函數(shù)為RPN網(wǎng)絡(luò)的損失函數(shù),這個損失函數(shù)是二分類損失函數(shù)(判斷候選區(qū)域是否為功能區(qū)域)和回歸損失函數(shù)(預(yù)測區(qū)域和真實區(qū)域邊界框的歐氏距離)的結(jié)合。

圖4:雙流網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)的上半部分提取功能相關(guān)的特征,下半部分提取物體相關(guān)的特征。

    第二個損失函數(shù)是最終結(jié)果的損失函數(shù),除了分類情形為多分類而非二分類外,整個損失函數(shù)與RPN網(wǎng)絡(luò)的損失函數(shù)一樣。這兩個損失函數(shù)都是可微的,自然式(1)也是可微的。同時,對于候選坐標(biāo)的ROI池化操作也是可微的[3]。因此,我們可以使用隨機(jī)梯度下降法來訓(xùn)練整個模型。

    結(jié)果

    A.實現(xiàn)細(xì)節(jié)

    本次實驗使用深度學(xué)習(xí)框架TensorFlow來實現(xiàn)本文提出的網(wǎng)絡(luò)結(jié)構(gòu)[1]?;赗esNet-101[7]在圖像識別中的高效表現(xiàn),我們采用了ResNet-101[7]架構(gòu)作為網(wǎng)絡(luò)中的基本模塊。CNNfunc和CNNobj都包括了[7]中的前四個殘差模塊,(即conv1,conv2_x,conv3_x和conv4_x,總共91個卷積層),CNNpred包括了ResNet-101中的最后一個殘差模塊(即conv5_x層)。最后的結(jié)果通過兩個全連接層得出。實驗首先使用COCO數(shù)據(jù)集訓(xùn)練一個fasterR-CNN模型[19],其次將模型的參數(shù)作為CNNfunc、CNNobj和CNNpred的初始化參數(shù)。然后我們固定CNNobj的參數(shù),再利用功能區(qū)域數(shù)據(jù)集微調(diào)雙流網(wǎng)絡(luò)。實驗中訓(xùn)練的學(xué)習(xí)率設(shè)為0.0003,批的大小設(shè)為1,anchorbox的大小設(shè)為0.125,0.2,0.5,1,2,方向比率(aspectratio)為0.5,1,2。非極大值抑制(NMS)的重疊度(IoU,IntersectionoverUnion)設(shè)置為0.7。

圖5:coco數(shù)據(jù)集的樣本示例

    B.?dāng)?shù)據(jù)集和評價指標(biāo)

    本次實驗利用[24]提供的功能區(qū)域數(shù)據(jù)集對模型進(jìn)行訓(xùn)練和測試。該數(shù)據(jù)集包括了約600張從SUN數(shù)據(jù)集[23]中得到的廚房場景圖像,圖7展示了數(shù)據(jù)集中的一些樣本。整個數(shù)據(jù)集有近10000個標(biāo)注的區(qū)域樣本。這些樣本的統(tǒng)計分布如圖6所示。為了對我們的模型進(jìn)行評估,本次實驗采用了與[19]相同的評價指標(biāo),將訓(xùn)練集90%的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),剩下的作為測試數(shù)據(jù)。

圖6:數(shù)據(jù)集中不同功能區(qū)域數(shù)量的統(tǒng)計直方圖

    對于物體網(wǎng)絡(luò),我們使用COCO數(shù)據(jù)集[12]學(xué)習(xí)與物體相關(guān)的特征。COCO數(shù)據(jù)集中包含了91種常見的物體類別,例如人,車,桌子,瓶子,碗等等。這些圖像均來源于網(wǎng)絡(luò),有著多種多樣的場景,如廚房,街道,公園等。每一張圖像包括了各種類別物體的矩形框。COCO數(shù)據(jù)集的圖例樣式如圖5所示。整個訓(xùn)練數(shù)據(jù)集共包含80000張圖像。

     本次實驗與[24]一樣使用精度,召回率和F1值作為算法的評價指標(biāo)。一個正確的預(yù)測結(jié)果應(yīng)符合以下兩點要求:(1)正確預(yù)測出功能類型;(2)預(yù)測的矩形框和真實標(biāo)簽的矩形框的IoU值要大于0.5。精度,召回率和F1值的計算如下所示:

在這里tp、fn分別表示正確的正樣本和錯誤的負(fù)樣本的數(shù)量。

    C.基準(zhǔn)方法(BaselineMethods)

    為了證明本文提出方法的有效性,本實驗采用下面的方法作為評價基準(zhǔn):

    1.選擇搜索(selectivesearch)+CNN分類[24]。該方法首先利用選擇搜索[21]生成候選框。生成候選框之后,將每個候選框選中的圖像塊作為輸入傳入CNN并預(yù)測出該候選框的功能類別。該CNN首先使用ImageNet圖像分類數(shù)據(jù)集[5]進(jìn)行預(yù)訓(xùn)練,然后用功能區(qū)域數(shù)據(jù)集進(jìn)行微調(diào)。本實驗使用原文章[24]的實驗結(jié)果作為本文的基準(zhǔn)實驗結(jié)果。因為[24]采用了“困難樣本挖掘”(“hardsamplemining”)的方法來調(diào)整CNN模型,所以其精度和召回率在每輪調(diào)整訓(xùn)練的時候都不同,我們將[24]中的3輪調(diào)整訓(xùn)練的結(jié)果都作為本次實驗的基準(zhǔn)結(jié)果。

    2.FasterR-CNN[19]。在訓(xùn)練fasterR-CNN過程中,首先用COCO數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,然后用功能區(qū)域檢測數(shù)據(jù)集進(jìn)行微調(diào)。為了保證實驗的公平性,這個基準(zhǔn)方法也使用ResNet-101[7]作為特征提取模塊,預(yù)測網(wǎng)絡(luò)跟本文提出方法的網(wǎng)絡(luò)結(jié)構(gòu)一致,訓(xùn)練的超參數(shù)跟[7]的設(shè)置一致。本文提出的方法跟fasterR-CNN的主要不同點在于:(1)在功能區(qū)域預(yù)測時保留了物體相關(guān)的特征;(2)anchorbox的尺度和方向比率更多。

    D.與基準(zhǔn)方法的量化比較

    表格1展示了本文提出的方法和其他基準(zhǔn)方法的精度、召回率和F1值。通過對比可知fasterR-CNN在性能上比[24]使用的選擇搜索+CNN分類的方法要更好。這是因為fasterR-CNN是一種結(jié)合特征學(xué)習(xí)和區(qū)域檢測的端到端的方法,多尺度的anchorboxes能夠處理多種尺度的區(qū)域。表格中的結(jié)果說明本文提出的方法要比已有的方法有更好的性能。本文的方法是在fasterR-CNN的基礎(chǔ)上建立的,因此結(jié)果表明了融合物體信息并且增加更多類型的anchorbox是行之有效的。

    E.控制變量分析(AblativeAnalysis)

    為了進(jìn)一步分析本文提出的方法的各個模塊的效果,本部分實驗將對模型進(jìn)行不同的設(shè)置并進(jìn)行比較。表格2展 示了該實驗的測試結(jié)果。在表格2中,模型A移除了雙流網(wǎng)絡(luò)中的其中一支網(wǎng)絡(luò),并且將anchorbox的種類設(shè)置與[19]一致,所以模型A與原始的fasterR-CNN一致。模型B保持與[19]一致的anchorbox的設(shè)置,但增加了能夠提取物體相關(guān)特征的網(wǎng)絡(luò)。從表格中可以看出精度從模型A的38.04%提升到模型B的52.29%。這一結(jié)果表明了物體知識對預(yù)測功能區(qū)域的有效性。模型C和模型D增加了anchorbox在尺度和方向比率上的多樣性,這個改進(jìn)同樣提高了模型的性能,可以看出模型D在增加了物體知識之后的性能要比沒有增加的模型C好。

    F.量化分析

    為了可視化算法的性能,圖7展示了在一些新的場景中算法對功能區(qū)域的預(yù)測結(jié)果。從圖中可以看出,算法能夠預(yù)測出不同大小的功能區(qū)域,甚至能夠預(yù)測出比較小的抽屜把柄區(qū)域并正確的標(biāo)識為“旋轉(zhuǎn)抓取并打開”。然而從圖中也能發(fā)現(xiàn)許多缺失的區(qū)域,比如圖7(b)的煤氣爐開關(guān)。經(jīng)分析,這種現(xiàn)象出現(xiàn)的可能原因有以下兩點:(1)在使用CNN做特征提取的時候圖像中的細(xì)節(jié)可能會因為下采樣層導(dǎo)致特征丟失。(2)后期使用的非極大值抑制處理可能會把重疊率較高的矩形框融合在一起。

圖7:本文方法在[24]提供的數(shù)據(jù)集上的實驗結(jié)果

    為了進(jìn)一步了解本文方法的性能提升的程度,實驗還利用預(yù)測區(qū)域?qū)?yīng)的預(yù)測功能類別與該區(qū)域的真實功能類別求出混淆矩陣,并對該矩陣進(jìn)行可視化,如圖8所示。因為本問題不是一個分類問題,我們只要看要預(yù)測的區(qū)域與哪一個標(biāo)注的區(qū)域重疊度最高。所以為了獲得預(yù)測區(qū)域的真實標(biāo)簽,我們將預(yù)測的區(qū)域與真實標(biāo)注區(qū)域重疊度大于0.5的區(qū)域?qū)?yīng)的標(biāo)簽作為該預(yù)測區(qū)域的真實標(biāo)簽,如果該區(qū)域跟每個標(biāo)簽的重疊都小于0.5,那么就將預(yù)測區(qū)域標(biāo)為“背景”這一類。通過對混淆矩陣的觀察,可以發(fā)現(xiàn)很多屬于背景的區(qū)域被預(yù)測成為功能區(qū)域。對實驗結(jié)果進(jìn)行分析后發(fā)現(xiàn),錯誤的結(jié)果中存在著錯誤的正樣本的情形,但也找到了一些區(qū)域預(yù)測是正確的但是卻缺失了真實的標(biāo)簽的情況。部分樣例如圖9所示。從中可以看到有些功能區(qū)域分布在不同的視角上,有些分布在一個密集的場景中,這對標(biāo)注員來說也是一個很大的挑戰(zhàn),因此可能存在漏標(biāo)的情況。

圖8:測試結(jié)果的混淆矩陣,垂直軸表示真實標(biāo)簽,水平軸表示預(yù)測結(jié)果

圖9:一些錯誤的正樣本的示例,在這些示例中模型正確預(yù)測出功能區(qū)域和對應(yīng)的功能,但是數(shù)據(jù)中沒有標(biāo)注

    因為訓(xùn)練跟測試數(shù)據(jù)都是在廚房環(huán)境中,所以為了真正說明算法的泛化能力,還需要在不同場景下進(jìn)行算法測試。我們下載了一批非廚房的室內(nèi)場景圖像,然后利用這些圖像測試本文提出的算法。結(jié)果如圖10所示。雖然預(yù)測結(jié)果存在一些錯誤,但是仍可以發(fā)現(xiàn)模型能夠找到一些新的有意義的區(qū)域。比如,枕頭沒有出現(xiàn)在廚房場景的訓(xùn)練集中,但是算法依然能夠正確的將它框出并標(biāo)注為“夾取并移除”。類似的,算法將床標(biāo)注為“坐”。這些都證明了模型能夠擴(kuò)展到新的未見過的區(qū)域中。

圖10:非廚房場景的功能區(qū)域檢測測試??梢园l(fā)現(xiàn)算法能夠檢測到廚房場景中沒有見過的功能區(qū)域

    結(jié)論

    本文研究了如何結(jié)合物體知識來提升功能區(qū)域的檢測問題,我們定義了一個雙流網(wǎng)絡(luò)結(jié)構(gòu),該網(wǎng)絡(luò)結(jié)構(gòu)能夠提取和融合物體相關(guān)特征和功能相關(guān)特征。同時本文中也討論了處理多尺度區(qū)域的問題。實驗中將本文提出的方法與基于深度學(xué)習(xí)的目標(biāo)檢測算法[19]和前人做的功能區(qū)域檢測算法[24]進(jìn)行對比,證明了本文算法優(yōu)越的性能,同時也證明了融合物體相關(guān)特征的有效性。實驗也進(jìn)一步證明,本文提出的算法能夠處理沒有在訓(xùn)練集中見過的場景和物體所包含的功能區(qū)域。由于目前fasterR-CNN[18]在通用物體檢測上有很好的性能表現(xiàn),因此本文的算法也采用了fasterR-CNN架構(gòu),其他的目標(biāo)檢測架構(gòu)也可以很方便地應(yīng)用到本文提出的算法上。本文的非常重要的貢獻(xiàn)在于將物體相關(guān)的知識應(yīng)用到功能區(qū)域檢測問題上。

參考文獻(xiàn)

[1]Mart´?nAbadi,AshishAgarwal,PaulBarham,EugeneBrevdo,ZhifengChen,CraigCitro,GregS.Corrado,AndyDavis,JeffreyDean,MatthieuDevin,SanjayGhemawat,IanGoodfellow,etal.TensorFlow:Large-scalemachinelearningonheterogeneoussystems,2015.Softwareavailablefromtensorflow.org

[2]L´eonBottou.Large-scalemachinelearningwithstochasticgradientdescent.InProceedingsofCOMPSTAT,pages177–186.2010.

[3]JifengDai,KaimingHe,andJianSun.Instance-awaresemanticsegmentationviamulti-tasknetworkcascades.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages3150–3158,2016.

[4]NavneetDalalandBillTriggs.Histogramsoforientedgradientsforhumandetection.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,volume1,pages886–893,2005.

[5]J.Deng,W.Dong,R.Socher,L.-J.Li,K.Li,andL.Fei-Fei.ImageNet:ALarge-ScaleHierarchicalImageDatabase.InProceedingsofIEEEconferenceonComputerVisionandPatternRecognition,2009.

[6]PedroFFelzenszwalb,RossBGirshick,DavidMcAllester,andDevaRamanan.Objectdetectionwithdiscriminativelytrainedpart-basedmodels.IEEETransactionsonPatternAnalysisandMachineIntelligence,32(9):1627–1645,2010.

[7]KaimingHe,XiangyuZhang,ShaoqingRen,andJianSun.Deepresiduallearningforimagerecognition.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,pages770–778,2016.

[8]HemaSwethaKoppula,RudhirGupta,andAshutoshSaxena.Learninghumanactivitiesandobjectaffordancesfromrgb-dvideos.TheInternationalJournalofRoboticsResearch,32(8):951–970,2013.

[9]AlexKrizhevsky,IlyaSutskever,andGeoffreyEHinton.Imagenetclassificationwithdeepconvolutionalneuralnetworks.InAdvancesinNeuralInformationProcessingSystems,pages1097–1105,2012.

[10]SulabhKumraandChristopherKanan.Roboticgraspdetectionusingdeepconvolutionalneuralnetworks.arXivpreprintarXiv:1611.08036,2016.

[11]YiningLi,ChenHuang,ChenChangeLoy,andXiaoouTang.Humanattributerecognitionbydeephierarchicalcontexts.InProceedingsofEuropeanConferenceonComputerVision,pages684–700,2016.

[12]Tsung-YiLin,MichaelMaire,SergeBelongie,JamesHays,PietroPerona,DevaRamanan,PiotrDoll´ar,andCLawrenceZitnick.Microsoftcoco:Commonobjectsincontext.InProceedingsofEuropeanConferenceonComputerVision,pages740–755,2014.

[13]WeiLiu,DragomirAnguelov,DumitruErhan,ChristianSzegedy,ScottReed,Cheng-YangFu,andAlexanderCBerg.Ssd:Singleshotmultiboxdetector.InProceedingsofEuropeanConferenceonComputerVision,pages21–37,2016.

[14]ZiweiLiu,PingLuo,XiaogangWang,andXiaoouTang.Deeplearningfaceattributesinthewild.InProceedingsoftheIEEEInternationalConferenceonComputerVision,pages3730–3738,2015.

[15]AustinMyers,ChingLTeo,CorneliaFerm¨uller,andYiannisAloimonos.Affordancedetectionoftoolpartsfromgeometricfeatures.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages1374–1381,2015.

[16]AlexanderNeubeckandLucVanGool.Efficientnon-maximumsuppression.InProceedingsofInternationalConferenceonPatternRecognition,volume3,pages850–855,2006.

[17]AlessandroPieropan,CarlHenrikEk,andHedvigKjellstr¨om.Functionalobjectdescriptorsforhumanactivitymodeling.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages1282–1289,2013.

[18]JosephRedmon,SantoshDivvala,RossGirshick,andAliFarhadi.Youonlylookonce:Unified,real-timeobjectdetection.InProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition,pages779–788,2016.

[19]ShaoqingRen,KaimingHe,RossGirshick,andJianSun.Fasterr-cnn:Towardsreal-timeobjectdetectionwithregionproposalnetworks.InAdvancesinNeuralInformationProcessingSystems,pages91–99,2015.

[20]YuyinSun,LiefengBo,andDieterFox.Attributebasedobjectidentification.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages2096–2103,2013.

[21]JasperRRUijlings,KoenEAVanDeSande,TheoGevers,andArnoldWMSmeulders.Selectivesearchforobjectrecognition.InternationalJournalofComputerVision,104(2):154–171,2013.

[22]FlorentinW¨org¨otter,ErenErdalAksoy,NorbertKr¨uger,JustusPiater,AlesUde,andMinijaTamosiunaite.Asimpleontologyofmanipu-lationactionsbasedonhand-objectrelations.IEEETransactionsonAutonomousMentalDevelopment,5(2):117–134,2013.

[23]JianxiongXiao,JamesHays,KristaAEhinger,AudeOliva,andAntonioTorralba.Sundatabase:Large-scalescenerecognitionfromabbeytozoo.InProceedingsofIEEEconferenceonComputerVisionandPatternRecognition,pages3485–3492,2010.

[24]ChengxiYe,YezhouYang,RenMao,CorneliaFerm¨uller,andYiannisAloimonos.Whatcanidoaroundhere?deepfunctionalsceneunder-standingforcognitiverobots.InProceedingsofIEEEInternationalConferenceonRoboticsandAutomation,pages4604–4611,2017.

[25]BoZhao,JiashiFeng,XiaoWu,andShuichengYan.Memory-augmentedattributemanipulationnetworksforinteractivefashionsearch.InProceedingsofIEEEConferenceonComputerVisionandPatternRecognition,July2017.

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運動控制

關(guān)注伺服與運動控制公眾號獲取更多資訊

直驅(qū)與傳動

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

中國傳動網(wǎng)

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

2018年第三期

2018年第三期

圖片閱讀

掃碼關(guān)注小程序

時刻關(guān)注行業(yè)動態(tài)

雜志訂閱

填寫郵件地址,訂閱更多資訊:

撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運動控制

    2023年第1期