技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國(guó)傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 用于行人檢測(cè)的候選區(qū)域框提取方法

用于行人檢測(cè)的候選區(qū)域框提取方法

時(shí)間:2017-11-20 17:19:25來源:中國(guó)傳動(dòng)網(wǎng)

導(dǎo)語:?近年來,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)在物體檢測(cè)任務(wù)中取得了巨大的成功。該深度模型需要先采用候選區(qū)域框提取方法獲得物體可能存在的位置

引言

    行人檢測(cè)任務(wù)的目標(biāo)是在圖像中檢測(cè)行人并確定行人的位置。隨著人工智能技術(shù)的發(fā)展,越來越多的研究人員關(guān)注這項(xiàng)任務(wù)并且做了很多相關(guān)的研究工作。準(zhǔn)確的行人檢測(cè)方法可以應(yīng)用于很多領(lǐng)域,例如智能輔助駕駛,智能視頻監(jiān)控和智能機(jī)器人等。

    近年來,區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(R-CNN)模型被廣泛應(yīng)用于通用類物體檢測(cè)任務(wù)。有相關(guān)文獻(xiàn)提出了一種快速區(qū)域卷積神經(jīng)網(wǎng)絡(luò)(FastR-CNN)模型,在21類的物體檢測(cè)任務(wù)中取得了顯著的效果。這種模型首先使用候選區(qū)域框方法SelectiveSearch去預(yù)測(cè)物體可能存在的位置,然后再使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)候選區(qū)域框進(jìn)行進(jìn)一步的精細(xì)分類和定位。受這種模型在通用類檢測(cè)中的啟發(fā),我們?cè)噲D將這種方法應(yīng)用于行人檢測(cè)。但是SelectiveSearch方法不是針對(duì)單一類的候選框提取方法,它會(huì)預(yù)測(cè)所有種類物體的可能位置,包括車輛,建筑等。因此生成的候選區(qū)域框存在很多的冗余,降低訓(xùn)練的分類器的質(zhì)量。同時(shí)冗余的候選區(qū)域框會(huì)消耗較多的計(jì)算資源,降低卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測(cè)試的速度。在行人檢測(cè)中,只對(duì)行人類別生成候選區(qū)域框,并使用這種候選框訓(xùn)練和測(cè)試卷積神經(jīng)網(wǎng)絡(luò),理論上可以取得很好的檢測(cè)效果。

    候選區(qū)域框提取在一定程度可以看作對(duì)物體的粗糙檢測(cè)。我們可以對(duì)圖像提取特征,并訓(xùn)練一個(gè)判別行人的簡(jiǎn)單分類器,使用分類器去生成候選區(qū)域框。這樣就可以實(shí)現(xiàn)只針對(duì)行人類別提取候選區(qū)域框的目的。基于這個(gè)思想,本文提出了一種適用于行人檢測(cè)的候選框提取方法。我們將這種候選框提取方法與卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)合起來,并應(yīng)用于行人檢測(cè)。這種檢測(cè)方法主要分為兩步:1)使用候選框提取方法為每張圖像生成候選區(qū)域框;2)將圖像和它的候選區(qū)域框輸入到卷積神經(jīng)網(wǎng)絡(luò)中。網(wǎng)絡(luò)包含兩個(gè)輸出層。一個(gè)輸出行人類別的概率估計(jì),另一個(gè)輸出四個(gè)實(shí)數(shù)表示行人邊界框的位置。

    本文的模型和其他行人檢測(cè)方法相比取得了很好的檢測(cè)效果。在INRIA,PKU和ETH數(shù)據(jù)集上分別實(shí)現(xiàn)了14.1%,15.3%和45.6%的漏檢率。實(shí)驗(yàn)結(jié)果表明,在行人檢測(cè)任務(wù)中我們的候選框提取方法要比SelectiveSearch更有效。同時(shí),我們的方法去除了冗余的候選區(qū)域框,提高了卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練和測(cè)試的速度。

背景

1.現(xiàn)有行人檢測(cè)算法的分類

    現(xiàn)有的行人檢測(cè)算法通常會(huì)被分為兩類。第一類稱為傳統(tǒng)算法,這類方法從圖像中提取手工設(shè)計(jì)特征并訓(xùn)練一個(gè)支持向量機(jī)(SVM)或增強(qiáng)(boosting)作為分類器。這些手工設(shè)計(jì)特征包括哈爾,梯度直方圖和局部二值模式等,在行人檢測(cè)表現(xiàn)出很好的性能。DPM在檢測(cè)中考慮了局部的區(qū)域特征以及區(qū)域間的形變。有相關(guān)文獻(xiàn)將上下文信息加入到模型中。另外,聚合通道特征將梯度直方圖和LUV顏色空間特征融合到一起用于行人檢測(cè)。文獻(xiàn)提出了一種有效的特征變換方法去除了局部特征間的關(guān)聯(lián)。

    另一類行人檢測(cè)方法是采樣深度模型。深度模型可以從原圖像中學(xué)習(xí)特征,極大地提高了行人檢測(cè)算法的性能。從行人的不同身體部門學(xué)習(xí)特征來處理行人間的遮擋問題,卷積網(wǎng)絡(luò)方法采用卷積稀疏編碼無監(jiān)督地預(yù)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),通過語義的特征優(yōu)化行人檢測(cè)效果。

2.候選框提取方法

    由于物體可能是任意尺寸并且可能出現(xiàn)在圖像的任一位置,因此需要搜索整幅圖像來完成分類和定位。滑動(dòng)窗口方法可以獲得所有可能的物體位置,但是計(jì)算復(fù)雜度很高。最近,研究人員提出了其他幾種候選框提取方法,例如selectivesearch,bing和edgeboxes。Selectivesearch通過分割和相似度計(jì)算的方式提取候選區(qū)域框,區(qū)域框的質(zhì)量較好但是速度很慢。Bing使用正則梯度信息和二分操作生成候選區(qū)域框,速度較快但是質(zhì)量很差。Edgeboxes是在質(zhì)量和速度之間折中的一種算法。

    這類方法生成的候選區(qū)域框包含了所有的種類,適用于通用類的檢測(cè),但無法完成單一類的候選框提取。冗余的候選區(qū)域框會(huì)降低卷積神經(jīng)網(wǎng)絡(luò)的性能,并消耗更多的計(jì)算資源。行人檢測(cè)問題只需要針對(duì)行人類別生成候選區(qū)域框而無需其它物體的冗余信息,本文實(shí)現(xiàn)了一種基于行人檢測(cè)算法的候選區(qū)域框提取方法。我們將這種優(yōu)化的候選區(qū)域框提取方法和卷積神經(jīng)網(wǎng)絡(luò)結(jié)合起來,并將其應(yīng)用于行人檢測(cè)。

提出的方法

    1.方法概述

    本文所提出的方法包括兩部分。第一部分是候選區(qū)域框的提取,第二部分是卷積神經(jīng)網(wǎng)絡(luò)模型。其中候選框提取方法采用聚合通道特征(ACF),卷積神經(jīng)網(wǎng)絡(luò)模型基于文獻(xiàn)中的深度網(wǎng)絡(luò)結(jié)構(gòu)。網(wǎng)絡(luò)的輸入是原始的圖像和候選區(qū)域框。模型首先通過卷積和池化提取圖像的卷積特征,經(jīng)由興趣區(qū)域池化(RoI)層將候選區(qū)域框的卷積特征映射為固定長(zhǎng)度的特征向量并被傳入全連接層。全連接層后面有兩個(gè)平行的輸出層,輸出行人檢測(cè)框的置信分?jǐn)?shù)和坐標(biāo)。

    2.候選區(qū)域框提取

    該候選區(qū)域框算法從圖像中提取10個(gè)通道的手工設(shè)計(jì)特征并訓(xùn)練一個(gè)AdaBoost分類器。通道特征包括歸一化的梯度幅值,梯度方向(6bins)和LUV顏色通道。算法通過計(jì)算不同尺度下的通道特征構(gòu)建特征金字塔。不同尺寸下的特征不是直接計(jì)算,而是通過相鄰尺寸的特征近似計(jì)算獲得,其詳細(xì)過程如下文所述。

    對(duì)于圖像I,設(shè)為任意低層次旋轉(zhuǎn)不變特征計(jì)算方法,圖像的一個(gè)通道計(jì)算方法為。通道C是像素級(jí)別的特征,C中每個(gè)像素都是從對(duì)應(yīng)圖像I的圖像塊計(jì)算而來。設(shè)表示圖像I在s尺寸下的重采樣,,R表示采樣函數(shù)。當(dāng)計(jì)算多尺寸圖像特征時(shí),首先將圖像I在尺寸s下重采樣,之后通過近似計(jì)算得到的通道特征。近似計(jì)算方法如下:

    是不同尺寸間的變換因子,每種通道。征類型對(duì)應(yīng)一個(gè)。通用的特征金字塔方法通常是在每一個(gè)尺寸計(jì)算。這種近似計(jì)算的方法在框的提取速度。在候選區(qū)域框提取過程中,本文首先對(duì)圖像提取10通道的特征,然后使用近似計(jì)算得到不同圖像尺寸下的特征構(gòu)建特征金字塔。最后訓(xùn)練了一個(gè)由2048個(gè)深度為2的分類樹組成的Adaboost分類器生成候選區(qū)域框。為了獲得足夠的候選區(qū)域框,我們降低了檢測(cè)的閾值。

圖1.卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

網(wǎng)絡(luò)結(jié)構(gòu)

    在這一部分,我們首先介紹采用的深度網(wǎng)絡(luò)模型的結(jié)構(gòu),然后說明模型的損失函數(shù)。

    本文的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。網(wǎng)絡(luò)包含5個(gè)卷積層。每個(gè)卷積層分別有96,256,384,384和256個(gè)核函數(shù)。采用線性整流函數(shù)(ReLU)作為網(wǎng)絡(luò)的激活函數(shù)。每個(gè)卷積層后面連接了一個(gè)空間最大池化層。網(wǎng)絡(luò)可以輸入任意尺寸的圖像。經(jīng)過卷積和池化,得到圖像的卷積特征。在卷積特征傳入全連接層之前,興趣區(qū)域池化層會(huì)將卷積特征映射為固定長(zhǎng)度的特征向量。分別使用標(biāo)準(zhǔn)差為0.01和0.001的高斯分布初始化用于分類和邊界框回歸的全連接層權(quán)重(weights)。偏置(bias)初始化為0。網(wǎng)絡(luò)的每一層權(quán)重的學(xué)習(xí)率為0.001,偏置的學(xué)習(xí)率為0.002。

    全連接層后面連接了兩個(gè)平行輸出層。第一個(gè)輸出層輸出在行人和背景類上的概率值,用表示。其中分別表示物體是背景和行人的概率值。通常,p通過在全連接層的兩個(gè)輸出加上softmax計(jì)算得到。第二個(gè)輸出層是在行人類上的邊界框回歸補(bǔ)償,使用表示。每個(gè)訓(xùn)練的候選區(qū)域框都有一個(gè)類別標(biāo)定u和邊界框目標(biāo)v。我們使用了多任務(wù)損失函數(shù)L同時(shí)訓(xùn)練分類和邊界框回歸:

    其中是類別u的對(duì)數(shù)損失函數(shù)。第二個(gè)任務(wù)的損失函數(shù)是在類別u的邊界框上定義的,。當(dāng)時(shí),艾弗森括號(hào)指示函數(shù)值為1,其他值為0。按照慣例,通用背景類被標(biāo)記為u=0。由于背景類的候選區(qū)域框沒有特定的標(biāo)注,此時(shí)在損失函數(shù)中就將背景類的忽略不計(jì)。對(duì)于行人類的邊界回歸,使用如下?lián)p失函數(shù):

    其中參數(shù)控制兩個(gè)任務(wù)損失之間的平衡。標(biāo)注的回歸目標(biāo)v被歸一化為零均值和單位方差。在所有的實(shí)驗(yàn)中,本文都設(shè)置。本文使用隨機(jī)梯度下降的方法最小化損失函數(shù)。

結(jié)束語

    本文提出了一種單一類候選框提取方法與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的模型。該候選框提取算法從圖像中提取手工設(shè)計(jì)特征,并訓(xùn)練AdaBoost分類器。本文所提出的方法不同于通用的候選框提取方法,可以只為行人類別生成候選區(qū)域框。本文還闡述了候選框提取算法的具體細(xì)節(jié)以及網(wǎng)絡(luò)的結(jié)構(gòu)。實(shí)驗(yàn)的結(jié)果表明,本文的方法提高了候選框提取的質(zhì)量,在行人檢測(cè)上取得了很好的效果,同時(shí)縮短了網(wǎng)絡(luò)訓(xùn)練和測(cè)試的時(shí)間。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:集成神經(jīng)網(wǎng)絡(luò)語音情感識(shí)別模...

下一篇:用于沖壓件3D檢測(cè)的高動(dòng)態(tài)結(jié)...

中國(guó)傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

網(wǎng)站簡(jiǎn)介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國(guó)傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購(gòu)咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號(hào) | 營(yíng)業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)