4399手机观看免费韩国,乡村守望的女人,抗争之城

融合深度圖像的卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)義分割方法

文：王孫平，陳世峰（中國(guó)科學(xué)院深圳先進(jìn)技術(shù)研究院，中國(guó)科學(xué)院大學(xué)）2018年第六期

摘要： 該文提出了一種基于深度學(xué)習(xí)框架的圖像語(yǔ)義分割方法，通過使用由相對(duì)深度點(diǎn)對(duì)標(biāo)注訓(xùn)練的網(wǎng)絡(luò)模型，實(shí)現(xiàn)了基于彩色圖像的深度圖像預(yù)測(cè)，并將其與原彩色圖像共同輸入到包含帶孔卷積的全卷積神經(jīng)網(wǎng)絡(luò)中。考慮到彩色圖像與深度圖像作為物體不同的屬性表征，在特征圖上用合并連接操作而非傳統(tǒng)的相加操作對(duì)其進(jìn)行融合，為后續(xù)卷積層提供特征圖輸入時(shí)保持了兩種表征的差異。在兩個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，該法可以有效提升語(yǔ)義分割的性能。

關(guān)鍵詞： 語(yǔ)義分割；深度學(xué)習(xí)；深度圖像

中圖分類號(hào) TG 156 文獻(xiàn)標(biāo)志碼 A

1、引言

圖像的語(yǔ)義分割是計(jì)算機(jī)視覺中的一個(gè)基礎(chǔ)問題，作為圖像理解的重要一環(huán)，在自動(dòng)駕駛系統(tǒng)、地理信息系統(tǒng)、醫(yī)療影像分析及機(jī)械臂物體抓取等實(shí)際應(yīng)用中都有關(guān)鍵作用。其中，地理信息系統(tǒng)中的衛(wèi)星遙感圖像可使用語(yǔ)義分割的方法自動(dòng)識(shí)別道路、河流、建筑物、植物等。在無(wú)人駕駛系統(tǒng)中，車載攝像頭和激光雷達(dá)采集的圖像，經(jīng)語(yǔ)義分割可以發(fā)現(xiàn)道路前方的行人、車輛等，以輔助駕駛和避讓。在醫(yī)療影像分析領(lǐng)域，語(yǔ)義分割主要用于腫瘤圖像分割和齲齒診斷等。

圖像的語(yǔ)義分割任務(wù)是指為一幅輸入圖像的每個(gè)像素分配一個(gè)語(yǔ)義類別，從而完成像素級(jí)別的分類。傳統(tǒng)的語(yǔ)義分割主要使用手工設(shè)計(jì)的特征和支持向量機(jī)、概率圖模型等方法。隨著深度卷積神經(jīng)網(wǎng)絡(luò)在計(jì)算機(jī)視覺任務(wù)中刷新多項(xiàng)記錄，包括圖像分類[1-3]、物體檢測(cè)[4-6]等，深度學(xué)習(xí)的方法也在語(yǔ)義分割任務(wù)中被廣泛使用[7-9]。
卷積神經(jīng)網(wǎng)絡(luò)本身具有一定的對(duì)局部圖像變換的不變性，可以很好地解決圖像分類問題。但在語(yǔ)義分割任務(wù)中，分類的同時(shí)還需要得到精確的位置，這與局部圖像變換的不變性相矛盾。在典型的圖像分類模型中，多層網(wǎng)絡(luò)組成了一個(gè)從局部到全局的金字塔結(jié)構(gòu)。其中，頂層的特征圖分辨率最低，雖然它包含全局的語(yǔ)義信息，但卻無(wú)法完成精確的定位。全卷積神經(jīng)網(wǎng)絡(luò)[7]利用端到端、像素到像素的方法進(jìn)行訓(xùn)練，對(duì)于頂層特征圖定位不夠精細(xì)的問題，采用跳躍結(jié)構(gòu)綜合了淺層精細(xì)的表觀信息和深層粗糙的語(yǔ)義信息。

Chen 等[8]使用了另一種方案，直接在網(wǎng)絡(luò)結(jié)構(gòu)中減少了下采樣的操作以得到更高的分辨率，并且利用了帶孔的卷積，在不增加網(wǎng)絡(luò)參數(shù)數(shù)量的前提下增大卷積核的感受野，從而獲取更多關(guān)于圖像像素的上下文信息。在信號(hào)處理領(lǐng)域，類似的方法最初用于非抽樣小波變換的高效計(jì)算[10]。此外，還使用全連接的條件隨機(jī)場(chǎng)方法[11]對(duì)卷積神經(jīng)網(wǎng)絡(luò)的輸出結(jié)果進(jìn)行后處理，達(dá)到了更精細(xì)的分割結(jié)果。

Zhao 等[12]在帶孔卷積的網(wǎng)絡(luò)模型基礎(chǔ)上，提出了金字塔池化模塊。該研究使用全局平均池化(Global Average Pooling，GAP)操作結(jié)果作為一個(gè)全局的上下文信息表征，與之前的特征圖連接，使組合后的特征圖同時(shí)包含全局的上下文信息和局部信息，是目前在 Pascal VOC 2012 數(shù)據(jù)集[13]上分割結(jié)果最好的方法之一。

圖像中物理屬性(如深度、表面法向量、反射率) 的估計(jì)屬于中層視覺任務(wù)，并可對(duì)高層視覺任務(wù)有所幫助。目前已經(jīng)有許多數(shù)據(jù)驅(qū)動(dòng)的深度估計(jì)方法[14-17]被提出，但這些方法受限于由深度傳感器采集的圖像數(shù)據(jù)集。盡管近年來(lái)消費(fèi)級(jí)深度圖像采集設(shè)備，如微軟 Kinect、華碩 Xtion Pro 和英特爾 RealSense 等得到了大量使用，但仍主要局限于室內(nèi)場(chǎng)景。對(duì)于鏡面反射、透明或較暗物體等情況，常常會(huì)得到失敗的結(jié)果。因此，在非受限的場(chǎng)景中難以用深度傳感器得到可靠的深度圖像。而對(duì)于語(yǔ)義分割任務(wù)而言，明確、清晰的邊緣比精確的深度測(cè)量值本身更重要。有經(jīng)驗(yàn)證據(jù)表明，相對(duì)于場(chǎng)景中某點(diǎn)的測(cè)量值，人類更擅長(zhǎng)于估計(jì)兩點(diǎn)之間的次序關(guān)系[18]。對(duì)于圖像中兩點(diǎn)的深度而言，“相等”“更深”“更淺”三種關(guān)系具有對(duì)單調(diào)變換的不變性，而且由人類對(duì)其標(biāo)注，不存在場(chǎng)景受限的問題。Chen 等[19]構(gòu)建了一個(gè)人類標(biāo)注的“相對(duì)深度”點(diǎn)對(duì)數(shù)據(jù)集，并提出了一種以此標(biāo)注端到端的訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，從彩色圖像預(yù)測(cè)深度圖像的方法，顯著改善了非受限場(chǎng)景下的單圖深度感知。本文提出將彩色圖像預(yù)測(cè)出的深度圖像融入語(yǔ)義分割的卷積神經(jīng)網(wǎng)絡(luò)，利用深度圖像的特性改善分割性能。

本文的主要?jiǎng)?chuàng)新點(diǎn)為：(1)使用從彩色圖像預(yù)測(cè)的深度圖像作為語(yǔ)義分割網(wǎng)絡(luò)的輸入；(2) 用多分支輸入、特征圖合并連接融合深度圖像特征的方法改善語(yǔ)義分割性能。實(shí)驗(yàn)結(jié)果表明，融合深度圖像的特征可以顯著提升語(yǔ)義分割性能。

2、融合深度圖像的語(yǔ)義分割

2.1語(yǔ)義分割的卷積神經(jīng)網(wǎng)絡(luò)

典型的用于分類任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)主要包含卷積層、激活函數(shù)、池化層和全連接層。一張輸入圖像經(jīng)過網(wǎng)絡(luò)由全連接層輸出一個(gè)一維向量，再使用 Softmax 函數(shù)歸一化后作為物體分類的得分。語(yǔ)義分割任務(wù)的卷積神經(jīng)網(wǎng)絡(luò)利用分類網(wǎng)絡(luò)預(yù)訓(xùn)練得到的權(quán)重參數(shù)，采用全卷積的網(wǎng)絡(luò)結(jié)構(gòu)，直接對(duì)輸入的三通道彩色圖像和像素級(jí)的標(biāo)注掩膜進(jìn)行端到端的訓(xùn)練。由于取消了全連接層，可以適應(yīng)任意尺寸的輸入圖像，并輸出與之相同尺寸的分割結(jié)果。

卷積神經(jīng)網(wǎng)絡(luò)某一層輸出的特征圖中像素的位置對(duì)應(yīng)于其在原圖像中的位置稱為“感受野”。由于網(wǎng)絡(luò)結(jié)構(gòu)中存在池化層或卷積層的下采樣操作，最后卷積層輸出的特征圖分辨率往往很低。如果減少下采樣操作來(lái)增加最后一個(gè)卷積層的特征圖分辨率，那么會(huì)使卷積核的感受野變小，并帶來(lái)更大的計(jì)算代價(jià)。而帶孔的卷積操作在不改變網(wǎng)絡(luò)權(quán)重參數(shù)數(shù)量的前提下，可以增大卷積核的感受野。圖 1(a)為卷積核尺寸為 3 的普通卷積操作。圖 1(b)是比率參數(shù) r 為 2 的帶孔卷積操作，在與圖 1(a)相同的參數(shù)數(shù)量情況下，處理并輸出了更高分辨率的特征圖。

對(duì)于一個(gè)一維的信號(hào)輸入x[i] 和一個(gè)長(zhǎng)度為k的卷積核 w[k]比率參數(shù)為 r 的條件下，帶孔卷積的輸出y[i] 定義如下：

其中，比率參數(shù) r 表示對(duì)輸入信號(hào)的采樣步長(zhǎng)，普通卷積可視為比率參數(shù) r＝1 的特例。
本文使用的語(yǔ)義分割網(wǎng)絡(luò)在使用帶孔卷積的基礎(chǔ)上，進(jìn)行全局平均池化操作。其意義首先在于將特征圖的所有信息合并到多個(gè)通道的單個(gè)點(diǎn)，形成一種全局的上下文先驗(yàn)信息；然后，再將其縮放回原特征圖大小，與原特征圖連接形成雙倍通道數(shù)量的特征圖，經(jīng)過若干卷積層輸出分割結(jié)果。由于特征圖綜合了這樣的全局上下文信息，分割結(jié)果可得到明顯改善[12]。

圖 2 是本文使用語(yǔ)義分割模型的網(wǎng)絡(luò)結(jié)構(gòu)。其中，“彩色圖像網(wǎng)絡(luò)”以 VGG-16[2]作為基礎(chǔ)模型，將 conv5 替換成 3 個(gè)比率參數(shù)為 2 的帶孔卷積層，conv6 為一個(gè)比率參數(shù)為 12 的帶孔卷積層，最后輸出通道數(shù)量為 256 的特征圖。“深度圖像網(wǎng)絡(luò)”分支僅包含 3 個(gè)卷積核尺寸為 3 的普通卷積層，通道數(shù)分別為 64、128、256。兩個(gè)分支分別進(jìn)行全局平均池化、縮放到原尺寸及合并連接操作，得到 512 個(gè)通道的特征圖。網(wǎng)絡(luò)中其他部分的作用在下面幾個(gè)小節(jié)中介紹。

2.2從彩色圖像預(yù)測(cè)深度圖像

目前使用稀疏的“相對(duì)深度”標(biāo)注進(jìn)行學(xué)習(xí)并預(yù)測(cè)出稠密的深度圖像主要有兩種方法，分別由 Zoran 等[20]和 Chen 等[19]提出。其中，Zoran 等[20]首先訓(xùn)練一個(gè)在圖像的超像素中心之間預(yù)測(cè)深度次序的分類器，然后用能量最小化的方法恢復(fù)整體的深度，使這些次序關(guān)系達(dá)到一致，最后在超像素中進(jìn)行插值來(lái)得到像素級(jí)別的深度圖像。Chen 等[19]直接使用全卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了彩色圖像到深度圖像的端到端訓(xùn)練，并提出了一種使用相對(duì)深度標(biāo)注來(lái)訓(xùn)練網(wǎng)絡(luò)的方法。對(duì)于相對(duì)深度標(biāo)注需要設(shè)計(jì)一個(gè)合適的損失函數(shù)，基于這樣的原則：真實(shí)深度次序?yàn)?ldquo;相等”時(shí)，預(yù)測(cè)的深度值差距越小越好；否則差距越大越好。假設(shè)訓(xùn)練集的圖像為 I，對(duì)其的K次查詢R={(i_k,j_k,r_k)},k-1,...,k。其中，i_k,j_k分別是第k次查詢中兩個(gè)點(diǎn)的位置。r_k{+1,-1,0}是對(duì)兩點(diǎn)深度次序關(guān)系的標(biāo)注，預(yù)測(cè)的圖像深度為z，則i_k、j_k對(duì)應(yīng)的深度值為a_ik、z_jk。定義如下?lián)p失函數(shù)：

其中，φ_k,(I,i_k,j_k,r,z)是第k次查詢的損失。

對(duì)于人類標(biāo)注的相對(duì)深度點(diǎn)對(duì)，只需直接使用這個(gè)損失函數(shù)。對(duì)于深度傳感器獲取的深度圖像，隨機(jī)采樣若干個(gè)點(diǎn)對(duì)即可轉(zhuǎn)換為相同的形式。本文使用 Chen 等[19]的“相對(duì)深度”網(wǎng)絡(luò)模型從彩色圖像預(yù)測(cè)深度圖像。該模型使用一種“沙漏”形的網(wǎng)絡(luò)結(jié)構(gòu)[21]，首先用深度傳感器采集深度圖像數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練，然后在相對(duì)深度點(diǎn)對(duì)數(shù)據(jù)集上精調(diào)，預(yù)測(cè)的深度圖像如圖 3(b) 所示。

相對(duì)深度的標(biāo)注點(diǎn)對(duì)選擇在很大程度上會(huì)影響網(wǎng)絡(luò)訓(xùn)練的結(jié)果。如果隨機(jī)在二維平面內(nèi)選取兩個(gè)點(diǎn)，會(huì)造成嚴(yán)重的偏置問題[19]：假設(shè)一個(gè)算法簡(jiǎn)單地認(rèn)為底部的點(diǎn)比上方的點(diǎn)深度更近，有 85.8% 的概率會(huì)與人類標(biāo)注的結(jié)果相同。一個(gè)更好的采樣方法是從同一水平線上隨機(jī)選取兩個(gè)點(diǎn)，但這同樣會(huì)造成簡(jiǎn)單認(rèn)為中心的點(diǎn)深度更近的算法與人類標(biāo)注結(jié)果有 71.4% 的概率相同。因此，一個(gè)合適的采樣策略是從一條水平線上隨機(jī)選取兩個(gè)與其水平線中心對(duì)稱的點(diǎn)，這樣左邊的點(diǎn)比右邊的點(diǎn)深度更近的概率為 50.03%。

2.3彩色與深度圖像特征的融合

獲得了估計(jì)的深度圖像后，如何將深度圖像與彩色圖像的特征融合也是一個(gè)重要問題。一種簡(jiǎn)單的方法是將彩色圖像的 3 個(gè)通道與深度圖像的 1 個(gè)通道堆疊，形成 4 個(gè)通道的輸入。然而，深度圖像對(duì)物體的幾何意義與彩色圖像代表的光學(xué)意義并不相同，Long 等[7]實(shí)驗(yàn)也表明這種方式并不能對(duì)性能有明顯的改善。Gupta 等[22]提出了一種由深度信息導(dǎo)出的稱為 HHA 的表征，由水平視差、距地面高度和局部表面法線與重力方向夾角組成，取得了更好的結(jié)果。但這種表征過于復(fù)雜，且未包含比深度圖像本身更多的信息[23]。本文提出的融合方法是：首先，分別用兩個(gè)網(wǎng)絡(luò)分支處理彩色圖像和深度圖像，得到 a 和 b 個(gè)通道的特征圖；然后，用類似 PSPNet[12] 中金字塔池化模塊的合并連接操作將兩個(gè)分支的特征圖合并成 a＋b 個(gè)通道的特征圖；最后，經(jīng)過若干卷積層輸出分割結(jié)果。與特征圖融合常用的相加操作相比，用合并連接操作可以使兩個(gè)分支網(wǎng)絡(luò)輸出的特征更加獨(dú)立，而非只為后續(xù)卷積層提供相同表征形式的特征圖。如圖 2 所示，將彩色圖像和深度圖像分支輸出的兩個(gè)通道數(shù)為 512 的特征圖合并連接，得到 1 024 個(gè)通道的特征圖。

初步實(shí)驗(yàn)發(fā)現(xiàn)，使用與最后卷積層輸出的相同尺寸的較低分辨率深度圖像和少量卷積層，可以取得比使用較高分辨率的深度圖像和更多卷積層與池化層更好的結(jié)果。一方面，由于深度圖像的預(yù)測(cè)網(wǎng)絡(luò)輸出的分辨率本身較低，高分辨率的深度圖像僅僅是通過縮放得到；另一方面，不使用池化層更有利于網(wǎng)絡(luò)輸入和輸出像素之間的位置對(duì)應(yīng)。

3、實(shí)驗(yàn)

3.1數(shù)據(jù)集

本文在 Pascal VOC 2012 數(shù)據(jù)集和 SUN RGB-D 數(shù)據(jù)集[24]上進(jìn)行實(shí)驗(yàn)。其中，Pascal VOC 2012 數(shù)據(jù)集的圖像包含 20 種類別的物體和一個(gè)背景類別，語(yǔ)義分割數(shù)據(jù)集被分成 3 個(gè)部分：訓(xùn)練集(1 464 張圖像)、驗(yàn)證集(1 449 張圖像)和測(cè)試集(1 456 張圖像)。其中，驗(yàn)證集和測(cè)試集不包含訓(xùn)練集的圖像。我們遵循慣例使用增加的包含 10 582 張訓(xùn)練圖像的標(biāo)注數(shù)據(jù)[25]，在1 449 張圖像上進(jìn)行驗(yàn)證。SUN RGB-D 數(shù)據(jù)集是一個(gè)適用于場(chǎng)景理解的數(shù)據(jù)集，包含 4 種不同傳感器獲取的彩色圖像與深度圖像，包括 NYU Depth v2[26]，Berkeley B3DO[27]和 SUN3D[28]等數(shù)據(jù)集，共有 10 335 張 RGB-D 圖像和其像素級(jí)的語(yǔ)義分割標(biāo)注，其中包含 5 285 張訓(xùn)練圖像和5 050 張測(cè)試圖像。

3.2數(shù)據(jù)集處理

本文對(duì)兩個(gè)數(shù)據(jù)集采取了適合自然圖像的常用數(shù)據(jù)增強(qiáng)方法：隨機(jī)縮放、鏡像和裁剪填充。其中，(1)隨機(jī)縮放：將圖像隨機(jī)縮放為原來(lái)的 0.5～1.5 倍；(2)鏡像：以 50% 的概率對(duì)圖像進(jìn)行水平翻轉(zhuǎn)；(3)裁剪填充：以 500×500 的固定尺寸裁剪或填充圖像(若尺寸不足則填充灰色)。網(wǎng)絡(luò)的輸入包括彩色圖像和深度圖像。由于Pascal VOC 2012 數(shù)據(jù)集不含深度傳感器采集的深度圖像，本文使用從彩色圖像預(yù)測(cè)得到的深度圖像作為輸入。對(duì)于 SUN RGB-D 數(shù)據(jù)集，本文對(duì)深度傳感器采集的深度圖像、彩色圖像預(yù)測(cè)得到的深度圖像均作為輸入進(jìn)行了實(shí)驗(yàn)。

3.3實(shí)驗(yàn)過程及參數(shù)

本文使用如圖 2 所示的網(wǎng)絡(luò)結(jié)構(gòu)，首先使用深度預(yù)測(cè)的網(wǎng)絡(luò)從彩色圖像預(yù)測(cè)出深度圖像，然后將彩色圖像和深度圖像分別輸入兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)分支。其中，彩色圖像的分支是以 VGG- 16 模型為基礎(chǔ)的包含帶孔卷積的網(wǎng)絡(luò)，權(quán)重由ImageNet[29]上預(yù)訓(xùn)練的 VGG-16[2]的權(quán)重進(jìn)行初始化，其他卷積層均為 Xavier 隨機(jī)初始化[30]。兩個(gè)網(wǎng)絡(luò)分支經(jīng)過合并連接后，再通過兩個(gè)卷積層輸出分割結(jié)果。

網(wǎng)絡(luò)訓(xùn)練的批尺寸(Batch Size)參數(shù)為 10，輸入的彩色圖像大小為 500×500，深度圖像和用于對(duì)比的灰度圖像大小為 63×63。初始學(xué)習(xí)率為 0.000 1(最后一個(gè)層為 0.001)，按照多項(xiàng)式函數(shù)衰減，訓(xùn)練迭代 20 000 次后停止。動(dòng)量參數(shù)為0.9，權(quán)重衰減參數(shù)為 0.000 5。實(shí)驗(yàn)均在 NVIDIA GeForce TITAN X GPU 上進(jìn)行。分割性能以各個(gè)類別的像素交并比 IoU(Intersection-over-Union得分平均數(shù)作為評(píng)價(jià)指標(biāo)。本文在兩個(gè)數(shù)據(jù)集上設(shè)計(jì)了 5 個(gè)實(shí)驗(yàn)，將輸入圖像分為：

(1)VOC 數(shù)據(jù)集，彩色圖像和預(yù)測(cè)的深度圖像；

(2)VOC 數(shù)據(jù)集，彩色圖像和灰度圖像；

(3)SUN 數(shù)據(jù)集，彩色圖像和預(yù)測(cè)的深度圖像；

(4)SUN 數(shù)據(jù)集，彩色圖像和深度傳感器采集的深度圖像；

(5)SUN 數(shù)據(jù)集，彩色圖像和灰度圖像。

其中，灰度圖像由彩色圖像轉(zhuǎn)換而成，用于替代深度圖像輸入網(wǎng)絡(luò)作為對(duì)照。

4、實(shí)驗(yàn)結(jié)果

4.1Pascal VOC 數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

為了對(duì)比有無(wú)深度圖像信息的效果，我們比較了實(shí)驗(yàn)(1)、(2)中不同類別的分割性能，結(jié)果如表 1 所示。由表 1 可以看出，對(duì)于大多數(shù)類別，融合預(yù)測(cè)的深度圖像特征都能對(duì)分割性能有效提升，只有顏色特征明顯、圖像中尺寸較小的盆栽植物(plant)類別下降了 0.1%。原因是深度預(yù)測(cè)模型的輸出分辨率較低，對(duì)于圖像中尺寸小的物體深度預(yù)測(cè)結(jié)果較差。其中，結(jié)構(gòu)特征明顯且圖像中尺寸較大的物體提升明顯，如飛機(jī)(aero)、船(boat)和沙發(fā)(sofa)等，與深度圖像本身物理意義的作用相符，證實(shí)了該方法的有效性。Pascal VOC 數(shù)據(jù)集上的分割結(jié)果如圖 3 所示。由圖 3 可以觀察到，即使對(duì)于室外的場(chǎng)景，深度圖像仍能捕獲到清晰的物體輪廓。在包含深度圖像輸入的情況下，由于深度圖像較為清晰的邊緣，物體邊界處的分割也達(dá)到了更好的效果。

4.2SUN RGB-D 數(shù)據(jù)集實(shí)驗(yàn)對(duì)比

表 2 比較了在 SUN RGB-D 數(shù)據(jù)集上預(yù)測(cè)的深度圖像、使用傳感器采集的深度圖像和無(wú)深度信息 3 種情況下，即實(shí)驗(yàn)(3)、(4)、(5)的分割結(jié)果。由圖 3 可以看出，使用深度圖像的分割結(jié)果較好，而且使用預(yù)測(cè)的深度圖像結(jié)果稍好于使用傳感器深度圖像的結(jié)果。這說(shuō)明對(duì)于語(yǔ)義分割任務(wù)，預(yù)測(cè)的深度圖像能夠起到替代傳感器采集的深度圖像的作用。

SUN RGB-D 數(shù)據(jù)集上的分割結(jié)果如圖 4 所示。由圖 4 可以看到，第一行深度圖像能清晰地分辨出椅腳，表明使用深度圖像的實(shí)驗(yàn)對(duì)椅腳部分的分割效果較好。第二、三行的傳感器深度圖像存在一些像素值缺失的區(qū)域和噪聲，而預(yù)測(cè)的深度圖像雖然深度測(cè)量值不夠精確，但保持了比較完整的物體形態(tài)。這是預(yù)測(cè)的深度圖像能夠取得稍好的分割結(jié)果的一個(gè)原因。

5、討論

圖像中物體的語(yǔ)義和深度具有密切的聯(lián)系，獲取并利用深度圖像可以對(duì)語(yǔ)義分割任務(wù)起到很大的輔助作用。但非受限環(huán)境下深度圖像的獲取是一個(gè)挑戰(zhàn)。深度傳感器獲取的深度圖像數(shù)據(jù)集局限于室內(nèi)環(huán)境和固定場(chǎng)景(如公路等)，而且目前在語(yǔ)義分割任務(wù)中對(duì)深度信息的利用方法仍存在很多缺陷[22,23]。本文使用卷積神經(jīng)網(wǎng)絡(luò)從彩色圖像中預(yù)測(cè)出深度圖像，以帶孔卷積的語(yǔ)義分割網(wǎng)絡(luò)為基礎(chǔ)設(shè)計(jì)了一個(gè)多分支網(wǎng)絡(luò)，用特征圖合并連接的方式融合彩色圖像和深度圖像的特征進(jìn)行語(yǔ)義分割。帶孔的卷積在不增加網(wǎng)絡(luò)參數(shù)數(shù)量的前提下增大了卷積核的感受野，使其包含更多的圖像上下文信息，從而改善分割性能[8]。在其他條件相同的情況下，本文提出的含有深度圖像信息與合并連接操作的網(wǎng)絡(luò)和不含深度圖像信息(以灰度圖像作為替代)的網(wǎng)絡(luò)相比，在 Pascal VOC 數(shù)據(jù)集上的均交并比(mIoU)提升了 1.1%。在 SUN RGB-D 數(shù)據(jù)集上的分割結(jié)果表明，使用預(yù)測(cè)的深度圖像訓(xùn)練的網(wǎng)絡(luò)與使用傳感器獲取的深度圖像的網(wǎng)絡(luò)性能接近，且都好于不含深度圖像的網(wǎng)絡(luò)。這說(shuō)明預(yù)測(cè)的深度圖像可以代替?zhèn)鞲衅鞑杉纳疃葓D像改善語(yǔ)義分割的結(jié)果。但當(dāng)前方案所使用的相對(duì)深度點(diǎn)對(duì)數(shù)據(jù)集標(biāo)注數(shù)量較少，網(wǎng)絡(luò)模型也有很大的改進(jìn)空間[19]。在卷積神經(jīng)網(wǎng)絡(luò)中利用深度圖像仍然是一個(gè)非常值得研究的問題。

6、結(jié) 論

本文提出一種多分支網(wǎng)絡(luò)和特征圖連接的方法融合深度圖像特征，使用彩色圖像預(yù)測(cè)的深度圖像解決非受限場(chǎng)景下深度圖像獲取困難的問題。利用金字塔池化模塊中使用的合并連接操作連接彩色圖像和深度圖像的特征圖，使兩種類型的特征互為補(bǔ)充且保持獨(dú)立的表征。在兩個(gè)數(shù)據(jù)集上的分割結(jié)果表明，該方法能夠利用深度圖像細(xì)化物體的邊緣，提升語(yǔ)義分割的性能。目前，仍然沒有很好的方法在卷積神經(jīng)網(wǎng)絡(luò)中充分利用深度圖像，下一步將嘗試對(duì)語(yǔ)義分割模型的損失函數(shù)和網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行改進(jìn)。

參考文獻(xiàn)
[1]Krizhevsky A, Sutskever I, Hinton GE. Imagenet classification with deep convolutional neural networks [C] // Proceedings of the 25th International Conference on Neural Information Processing Systems, 2012: 1097-1105.
[2]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition [J]. Computer Science, 2014, arXiv:1409.1556.
[3]He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2016: 770-778.
[4]Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation [J]. Computer Science, 2013: 580-587.
[5]Girshick R. Fast R-CNN [J]. Computer Science, 2015, arXiv:1504.08083.
[6]Ren S, He K, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 39(6): 1137-1149.
[7]Long J, Shelhamer E, Darrell T. Fully convolutional

networks for semantic segmentation [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2015: 3431-3440.
[8]Chen LC, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 40(4): 834-848.
[9]Zheng S, Jayasumana S, Romera-Paredes B, et al. Conditional random fields as recurrent neural networks [J]. Computer Science, 2015, doi: 10.1109/ICCV.2015.179.
[10]Holschneider M, Kronland-Martinet R, Morlet J, et al. A real-time algorithm for signal analysis with the help of the wavelet transform [M] // Wavelets. Springer Berlin Heidelberg, 1990: 286-297.
[11]Krähenbühl P, Koltun V. Efficient inference in fully connected CRFs with gaussian edge potentials [J]. Computer Science, 2012: 109-117.
[12]Zhao HS, Shi JP, Qi XJ, et al. Pyramid scene parsing network [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2017: 6230-6239.
[13]Everingham M, Gool LV, Williams CKI, et al. The pascal visual object classes (VOC) challenge [J]. International Journal of Computer Vision, 2010, 88(2): 303-338.
[14]Karsch K, Liu C, Kang SB. Depth transfer: depth extraction from videos using nonparametric sampling [M] // Dense Image Correspondences for Computer Vision. Springer International Publishing, 2016: 775-788.
[15]Saxena A, Sun M, Ng AY. Make3D: learning 3D scene structure from a single still image [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009, 31(5): 824-840.
[16]Eigen D, Fergus R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture [C] // IEEE International Conference on Computer Vision, 2015: 2650-2658.
[17]Li B, Shen CH, Dai YC, et al. Depth and surface normal estimation from monocular images using regression on deep features and hierarchical CRFs
[C]// IEEE Conference on Computer Vision and Pattern Recognition, 2015: 1119-1127.
[18]Todd JT, Norman JF. The visual perception of 3-D shape from multiple cues: are observers capable

of perceiving metric structure? [J]. Perception & Psychophysics, 2003, 65(1): 31-47.
[19]Chen WF, Fu Z, Yang DW, et al. Single-image depth perception in the wild [C] // Advances in Neural Information Processing Systems, 2016: 730-738.
[20]Zoran D, Isola P, Krishnan D, et al. Learning ordinal relationships for mid-level vision [C] // IEEE International Conference on Computer Vision (ICCV), 2015: 388-396.
[21]Newell A, Yang K, Deng J. Stacked hourglass networks for human pose estimation [M] // Stacked Hourglass Network for Human Pose Estimation. Springer International Publishing, 2016: 483-499.
[22]Gupta S, Girshick R, Arbeláez P, et al. Learning rich features from RGB-D images for object detection and segmentation [C] // European Conference on Computer Vision, 2014: 345-360.
[23]Hazirbas C, Ma L, Domokos C, et al. Fusenet: incorporating depth into semantic segmentation via fusion-based cnn architecture [C] // Asian Conference on Computer Vision, 2016: 213-228.
[24]Song SR, Lichtenberg SP, Xiao JX. SUN RGB-D: a RGB-D scene understanding benchmark suite [C] // IEEE Conference on Computer Vision and Pattern Recognition, 2015.
[25]Hariharan B, Arbeláez P, Bourdev L, et al. Semantic contours from inverse detectors [C] // IEEE International Conference on Computer Vision (ICCV), 2011: 991-998.
[26]Silberman N, Hoiem D, Kohli P, et al. Indoor segmentation and support inference from rgbd images [C] // European Conference on Computer Vision, 2012: 746-760.
[27]Janoch A, Karayev S, Jia Y, et al. A category- level 3D object dataset: putting the kinect to work
[C]// IEEE International Conference on Computer Vision, 2011: 1168-1174.
[28]Xiao JX, Owens A, Torralba A. SUN3D: a database of big spaces reconstructed using SfM and object labels [C] // IEEE International Conference on Computer Vision, 2013: 1625-1632.
[29]Russakovsky O, Deng J, Su H, et al. Imagenet large scale visual recognition challenge [J]. International Journal of Computer Vision, 2015, 115(3): 211-252.
[30]Glorot X, Bengio Y. Understanding the difficulty of training deep feedforward neural networks [J] Journal of Machine Learning Research, 2010, 9: 249-256.

卷積神經(jīng)網(wǎng)絡(luò)，深度圖像

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明：

凡本網(wǎng)注明[來(lái)源：中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件，均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題，請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。