您現(xiàn)在的位置：中國(guó)傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 用于行人檢測(cè)的候選區(qū)域框提取方法

用于行人檢測(cè)的候選區(qū)域框提取方法

時(shí)間：2017-11-20 17:19:25來源：中國(guó)傳動(dòng)網(wǎng)

導(dǎo)語：?近年來，區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)在物體檢測(cè)任務(wù)中取得了巨大的成功。該深度模型需要先采用候選區(qū)域框提取方法獲得物體可能存在的位置

引言

行人檢測(cè)任務(wù)的目標(biāo)是在圖像中檢測(cè)行人并確定行人的位置。隨著人工智能技術(shù)的發(fā)展，越來越多的研究人員關(guān)注這項(xiàng)任務(wù)并且做了很多相關(guān)的研究工作。準(zhǔn)確的行人檢測(cè)方法可以應(yīng)用于很多領(lǐng)域，例如智能輔助駕駛，智能視頻監(jiān)控和智能機(jī)器人等。

近年來，區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)模型被廣泛應(yīng)用于通用類物體檢測(cè)任務(wù)。有相關(guān)文獻(xiàn)提出了一種快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(FastR-CNN)模型，在21類的物體檢測(cè)任務(wù)中取得了顯著的效果。這種模型首先使用候選區(qū)域框方法SelectiveSearch去預(yù)測(cè)物體可能存在的位置，然后再使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選區(qū)域框進(jìn)行進(jìn)一步的精細(xì)分類和定位。受這種模型在通用類檢測(cè)中的啟發(fā)，我們?cè)噲D將這種方法應(yīng)用于行人檢測(cè)。但是SelectiveSearch方法不是針對(duì)單一類的候選框提取方法，它會(huì)預(yù)測(cè)所有種類物體的可能位置，包括車輛，建筑等。因此生成的候選區(qū)域框存在很多的冗余，降低訓(xùn)練的分類器的質(zhì)量。同時(shí)冗余的候選區(qū)域框會(huì)消耗較多的計(jì)算資源，降低卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試的速度。在行人檢測(cè)中，只對(duì)行人類別生成候選區(qū)域框，并使用這種候選框訓(xùn)練和測(cè)試卷積神經(jīng)網(wǎng)絡(luò)，理論上可以取得很好的檢測(cè)效果。

候選區(qū)域框提取在一定程度可以看作對(duì)物體的粗糙檢測(cè)。我們可以對(duì)圖像提取特征，并訓(xùn)練一個(gè)判別行人的簡(jiǎn)單分類器，使用分類器去生成候選區(qū)域框。這樣就可以實(shí)現(xiàn)只針對(duì)行人類別提取候選區(qū)域框的目的。基于這個(gè)思想，本文提出了一種適用于行人檢測(cè)的候選框提取方法。我們將這種候選框提取方法與卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)合起來，并應(yīng)用于行人檢測(cè)。這種檢測(cè)方法主要分為兩步：1)使用候選框提取方法為每張圖像生成候選區(qū)域框；2)將圖像和它的候選區(qū)域框輸入到卷積神經(jīng)網(wǎng)絡(luò)中。網(wǎng)絡(luò)包含兩個(gè)輸出層。一個(gè)輸出行人類別的概率估計(jì)，另一個(gè)輸出四個(gè)實(shí)數(shù)表示行人邊界框的位置。

本文的模型和其他行人檢測(cè)方法相比取得了很好的檢測(cè)效果。在INRIA，PKU和ETH數(shù)據(jù)集上分別實(shí)現(xiàn)了14.1%，15.3%和45.6%的漏檢率。實(shí)驗(yàn)結(jié)果表明，在行人檢測(cè)任務(wù)中我們的候選框提取方法要比SelectiveSearch更有效。同時(shí)，我們的方法去除了冗余的候選區(qū)域框，提高了卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測(cè)試的速度。

背景

1.現(xiàn)有行人檢測(cè)算法的分類

現(xiàn)有的行人檢測(cè)算法通常會(huì)被分為兩類。第一類稱為傳統(tǒng)算法，這類方法從圖像中提取手工設(shè)計(jì)特征并訓(xùn)練一個(gè)支持向量機(jī)(SVM)或增強(qiáng)(boosting)作為分類器。這些手工設(shè)計(jì)特征包括哈爾，梯度直方圖和局部二值模式等，在行人檢測(cè)表現(xiàn)出很好的性能。DPM在檢測(cè)中考慮了局部的區(qū)域特征以及區(qū)域間的形變。有相關(guān)文獻(xiàn)將上下文信息加入到模型中。另外，聚合通道特征將梯度直方圖和LUV顏色空間特征融合到一起用于行人檢測(cè)。文獻(xiàn)提出了一種有效的特征變換方法去除了局部特征間的關(guān)聯(lián)。

另一類行人檢測(cè)方法是采樣深度模型。深度模型可以從原圖像中學(xué)習(xí)特征，極大地提高了行人檢測(cè)算法的性能。從行人的不同身體部門學(xué)習(xí)特征來處理行人間的遮擋問題，卷積網(wǎng)絡(luò)方法采用卷積稀疏編碼無監(jiān)督地預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，通過語義的特征優(yōu)化行人檢測(cè)效果。

2.候選框提取方法

由于物體可能是任意尺寸并且可能出現(xiàn)在圖像的任一位置，因此需要搜索整幅圖像來完成分類和定位。滑動(dòng)窗口方法可以獲得所有可能的物體位置，但是計(jì)算復(fù)雜度很高。最近，研究人員提出了其他幾種候選框提取方法，例如selectivesearch，bing和edgeboxes。Selectivesearch通過分割和相似度計(jì)算的方式提取候選區(qū)域框，區(qū)域框的質(zhì)量較好但是速度很慢。Bing使用正則梯度信息和二分操作生成候選區(qū)域框，速度較快但是質(zhì)量很差。Edgeboxes是在質(zhì)量和速度之間折中的一種算法。

這類方法生成的候選區(qū)域框包含了所有的種類，適用于通用類的檢測(cè)，但無法完成單一類的候選框提取。冗余的候選區(qū)域框會(huì)降低卷積神經(jīng)網(wǎng)絡(luò)的性能，并消耗更多的計(jì)算資源。行人檢測(cè)問題只需要針對(duì)行人類別生成候選區(qū)域框而無需其它物體的冗余信息，本文實(shí)現(xiàn)了一種基于行人檢測(cè)算法的候選區(qū)域框提取方法。我們將這種優(yōu)化的候選區(qū)域框提取方法和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合起來，并將其應(yīng)用于行人檢測(cè)。

提出的方法

1.方法概述

本文所提出的方法包括兩部分。第一部分是候選區(qū)域框的提取，第二部分是卷積神經(jīng)網(wǎng)絡(luò)模型。其中候選框提取方法采用聚合通道特征(ACF)，卷積神經(jīng)網(wǎng)絡(luò)模型基于文獻(xiàn)中的深度網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)的輸入是原始的圖像和候選區(qū)域框。模型首先通過卷積和池化提取圖像的卷積特征，經(jīng)由興趣區(qū)域池化(RoI)層將候選區(qū)域框的卷積特征映射為固定長(zhǎng)度的特征向量并被傳入全連接層。全連接層后面有兩個(gè)平行的輸出層，輸出行人檢測(cè)框的置信分?jǐn)?shù)和坐標(biāo)。

2.候選區(qū)域框提取

該候選區(qū)域框算法從圖像中提取10個(gè)通道的手工設(shè)計(jì)特征并訓(xùn)練一個(gè)AdaBoost分類器。通道特征包括歸一化的梯度幅值，梯度方向(6bins)和LUV顏色通道。算法通過計(jì)算不同尺度下的通道特征構(gòu)建特征金字塔。不同尺寸下的特征不是直接計(jì)算，而是通過相鄰尺寸的特征近似計(jì)算獲得，其詳細(xì)過程如下文所述。

對(duì)于圖像I，設(shè)為任意低層次旋轉(zhuǎn)不變特征計(jì)算方法，圖像的一個(gè)通道計(jì)算方法為。通道C是像素級(jí)別的特征，C中每個(gè)像素都是從對(duì)應(yīng)圖像I的圖像塊計(jì)算而來。設(shè)表示圖像I在s尺寸下的重采樣，，R表示采樣函數(shù)。當(dāng)計(jì)算多尺寸圖像特征時(shí)，首先將圖像I在尺寸s下重采樣，之后通過近似計(jì)算得到的通道特征。近似計(jì)算方法如下：

是不同尺寸間的變換因子，每種通道。征類型對(duì)應(yīng)一個(gè)。通用的特征金字塔方法通常是在每一個(gè)尺寸計(jì)算。這種近似計(jì)算的方法在框的提取速度。在候選區(qū)域框提取過程中，本文首先對(duì)圖像提取10通道的特征，然后使用近似計(jì)算得到不同圖像尺寸下的特征構(gòu)建特征金字塔。最后訓(xùn)練了一個(gè)由2048個(gè)深度為2的分類樹組成的Adaboost分類器生成候選區(qū)域框。為了獲得足夠的候選區(qū)域框，我們降低了檢測(cè)的閾值。

圖1.卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)

在這一部分，我們首先介紹采用的深度網(wǎng)絡(luò)模型的結(jié)構(gòu)，然后說明模型的損失函數(shù)。

本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)包含5個(gè)卷積層。每個(gè)卷積層分別有96，256，384，384和256個(gè)核函數(shù)。采用線性整流函數(shù)(ReLU)作為網(wǎng)絡(luò)的激活函數(shù)。每個(gè)卷積層后面連接了一個(gè)空間最大池化層。網(wǎng)絡(luò)可以輸入任意尺寸的圖像。經(jīng)過卷積和池化，得到圖像的卷積特征。在卷積特征傳入全連接層之前，興趣區(qū)域池化層會(huì)將卷積特征映射為固定長(zhǎng)度的特征向量。分別使用標(biāo)準(zhǔn)差為0.01和0.001的高斯分布初始化用于分類和邊界框回歸的全連接層權(quán)重(weights)。偏置(bias)初始化為0。網(wǎng)絡(luò)的每一層權(quán)重的學(xué)習(xí)率為0.001，偏置的學(xué)習(xí)率為0.002。

全連接層后面連接了兩個(gè)平行輸出層。第一個(gè)輸出層輸出在行人和背景類上的概率值，用表示。其中和分別表示物體是背景和行人的概率值。通常，p通過在全連接層的兩個(gè)輸出加上softmax計(jì)算得到。第二個(gè)輸出層是在行人類上的邊界框回歸補(bǔ)償，使用表示。每個(gè)訓(xùn)練的候選區(qū)域框都有一個(gè)類別標(biāo)定u和邊界框目標(biāo)v。我們使用了多任務(wù)損失函數(shù)L同時(shí)訓(xùn)練分類和邊界框回歸：

其中是類別u的對(duì)數(shù)損失函數(shù)。第二個(gè)任務(wù)的損失函數(shù)是在類別u的邊界框上定義的，。當(dāng)時(shí)，艾弗森括號(hào)指示函數(shù)值為1，其他值為0。按照慣例，通用背景類被標(biāo)記為u=0。由于背景類的候選區(qū)域框沒有特定的標(biāo)注，此時(shí)在損失函數(shù)中就將背景類的忽略不計(jì)。對(duì)于行人類的邊界回歸，使用如下?lián)p失函數(shù)：

其中參數(shù)控制兩個(gè)任務(wù)損失之間的平衡。標(biāo)注的回歸目標(biāo)v被歸一化為零均值和單位方差。在所有的實(shí)驗(yàn)中，本文都設(shè)置。本文使用隨機(jī)梯度下降的方法最小化損失函數(shù)。

結(jié)束語

本文提出了一種單一類候選框提取方法與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的模型。該候選框提取算法從圖像中提取手工設(shè)計(jì)特征，并訓(xùn)練AdaBoost分類器。本文所提出的方法不同于通用的候選框提取方法，可以只為行人類別生成候選區(qū)域框。本文還闡述了候選框提取算法的具體細(xì)節(jié)以及網(wǎng)絡(luò)的結(jié)構(gòu)。實(shí)驗(yàn)的結(jié)果表明，本文的方法提高了候選框提取的質(zhì)量，在行人檢測(cè)上取得了很好的效果，同時(shí)縮短了網(wǎng)絡(luò)訓(xùn)練和測(cè)試的時(shí)間。

標(biāo)簽：

分享到：

上一篇：集成神經(jīng)網(wǎng)絡(luò)語音情感識(shí)別模...

下一篇：用于沖壓件3D檢測(cè)的高動(dòng)態(tài)結(jié)...

中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國(guó)傳動(dòng)網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點(diǎn)