您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 基于粗標簽約束的細粒度分類

基于粗標簽約束的細粒度分類

時間：2019-04-03 13:42:53來源：陸超豪，鄒月嫻（北京大學深圳研究生院信息工程學院

導語：?細粒度分類識別的對象是類別相似度很高的物種。以鳥分類為例，不同的類別不僅在形態(tài)上具有極強的相似，在生物分類學上的關(guān)系也非常密切，往往有著相同的目、科。

摘要：細粒度分類識別的對象是類別相似度很高的物種。以鳥分類為例，不同的類別不僅在形態(tài)上具有極強的相似，在生物分類學上的關(guān)系也非常密切，往往有著相同的目、科。目前多數(shù)分類方法使用的監(jiān)督信息是一個個獨立的類別標簽，這種形式的類別標簽不能表達不同類別在生物分類學上的相關(guān)性。相反，本文考慮這種相關(guān)性，并想使用這一信息來改善細粒度分類性能。為此，本文創(chuàng)新性地提出了一種新的粗標簽表示，和相應的代價函數(shù)。粗標簽表示的思想來自多標簽學習中的類別表示，這種粗標簽表示可以很好地表達不同類別在生物分類學上的結(jié)構(gòu)信息，且粗標簽僅僅從類別名稱的后綴名稱中獲得，或者像CIFAR-100數(shù)據(jù)集預先給出。我們提出一種新的代價函數(shù)，進而可以充分利用這種粗標簽監(jiān)督信息改善細粒度分類。我們的方法可以推廣到任何微調(diào)任務;它不會增加原始模型的大小，也不會增加額外的訓練時間。我們進行了大量的實驗，表明使用粗標簽約束可以改進分類準確率。

關(guān)鍵詞：圖像識別；細粒度分類；粗標簽約束；

1.引言

細粒度分類旨在區(qū)分非常相似的類別，例如鳥[1,2]、狗[3]和花[4]。這些任務與傳統(tǒng)的圖像分類[5]不同，因為它們需要專家級知識才能找到類別之間的細微差別。細粒度分類在許多領(lǐng)域具有廣泛的應用，如：以圖搜圖、圖像生成和機器教學[6]。

大部分已有的細粒度分類所使用的監(jiān)督信息包括類別標簽，預先給定的候選框。我們發(fā)現(xiàn)所有的方法都使用一個個獨立的類別標簽作為監(jiān)督信息，而細粒度分類的類別在生物分類學上存在很強的相關(guān)性，現(xiàn)有的類別標簽無法表達這種生物分類學上的相關(guān)性。

目前流行的生物分類學方法，是有層次、有結(jié)構(gòu)的。我們以鳥分類為例，鳥類下面有目、科、屬、種。在細粒度分類中，我們通常是識別“種”，而不是所對應的“科”和“屬”。這帶給我兩個思考：首先，能否利用生物分類學的結(jié)構(gòu)信息來促進細粒度分類；第二、如何實現(xiàn)。

本文從非?；镜膶用婊卮鹆松鲜鰞蓚€問題。我們提出了一種新的粗標簽表示；和相應的代價函數(shù)來利用這種粗標簽監(jiān)督信息。我們把常用的類別標簽稱之為細標簽，以表示一個個獨立類別；而粗標簽則是多個獨立類別的共同標簽。粗標簽表示的思路來源于多標簽學習[7,8]，這種粗標簽可以表示類別之間的結(jié)構(gòu)關(guān)系，包括粗標簽和細標簽之間的父子關(guān)系，屬于相同粗標簽的不同細標簽之間的兄弟關(guān)系。代價函數(shù)利用這一粗標簽監(jiān)督信息，將細標簽分類的錯誤約束在更小的區(qū)間，進而改善分類準確率。通過我們新的粗標簽表示和代價函數(shù)，我們可以在現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)上實現(xiàn)1-7個百分點的分類性能提升。這種方法不會改變原始模型的大小，也不會增加額外的訓練時間。

本文的主要貢獻可以概括如下：

我們提出了一種新的粗標簽表示，這種表示方法可以表達出不同類別在生物分類學上的相關(guān)性。

我們提出了一種新的代價函數(shù)，來利用這種粗標簽監(jiān)督信息。

我們在三個細粒度分類數(shù)據(jù)庫（CUB[1][1][1][1],StanfordDogs,NABirds）,、一個常規(guī)圖像分類數(shù)據(jù)庫（CIFAR-100）上進行了大量實驗，獲得了1-7個百分點的性能提升。

本文剩下部分的組織如下：第二部分介紹相關(guān)工作；第三部分介紹本文提出的方法；第四部分介紹采用的數(shù)據(jù)庫與網(wǎng)絡(luò)架構(gòu)；第五部分介紹實驗結(jié)果與分析；第六部分是總結(jié)。

2.相關(guān)工作

2.1細粒度分類

細粒度分類的方法主要依賴于局部部件定位和更有判別力的特征提取器。細粒度分類任務與傳統(tǒng)分類任務之間的最大區(qū)別，是細粒度類別之間差異非常細微。以鳥分類為例，不同類別的區(qū)別可能是翅膀顏色不同，局部細節(jié)的差異成為影響分類的重要因素；因此我們使用圖像的局部信息來幫助分類，例如通過額外處理鳥的頭部和軀干[9-12]，以提高整體分類性能；或者基于注意力機制[13,14]提高性能。使用更有判別力的特征提取器對于細粒度分類也是至關(guān)重要的。由于卷積神經(jīng)網(wǎng)絡(luò)[15,16]在傳統(tǒng)圖像分類中的成功，使得微調(diào)預訓練模型成為一個非常有效的方法。此外，集成學習[17]的方法、新的特征編碼方法[18,19]都在細粒度分類上取得了一定的效果；這些工作在未來都有可能與我們的方法相結(jié)合。

2.2遷移學習

在ImageNet[5]數(shù)據(jù)集上預訓練的網(wǎng)絡(luò)模型已被廣泛用于遷移學習。預訓練的網(wǎng)絡(luò)模型可以用作特征提取器，或者與整個網(wǎng)絡(luò)進行微調(diào)。與傳統(tǒng)的圖像分類相比，細粒度分類數(shù)據(jù)集要小得多；此外，對于細粒度分類的生物數(shù)據(jù)收集，一些稀有物種難以拍攝，導致不同類別的圖片數(shù)不均勻；這些因素使得從頭開始訓練細粒度分類模型變得非常困難。最近，使用大規(guī)模的帶噪網(wǎng)絡(luò)數(shù)據(jù)[20]來微調(diào)網(wǎng)絡(luò)，或使用大規(guī)模細粒度數(shù)據(jù)集[6,21]來微調(diào)小數(shù)據(jù)集，它們獲得了令人難以置信的實驗結(jié)果。

2.3多標簽學習

在圖像分類中，多標簽學習研究單個圖片同時對應一組標簽，而常規(guī)的圖像分類研究單個圖片對應一個標簽。在某種程度上，常規(guī)的圖像分類可以被視為多標簽學習的特例。我們的方法和多標簽學習之間存在兩個主要差異。首先，在多標簽學習中，類別向量的每個維度表示該類別是否出現(xiàn)。假設(shè)存在N個類別，則多標簽類別的不同組合形式具有2^N種可能性。我們使用多標簽類別的表示規(guī)則來表示粗標簽，但是粗標簽的數(shù)量小于N。其次，在多標簽學習中，網(wǎng)絡(luò)的輸出是多標簽向量;我們的方法使用粗標簽作為一種監(jiān)督信息，最終輸出是單個標簽。

3.方法

我們創(chuàng)建了一種新的粗標簽表示，可以很好地表示不同類別在生物分類學上的相關(guān)性。同時，我們提出了一種新的代價函數(shù)，來利用這種粗標簽監(jiān)督信息，提升網(wǎng)絡(luò)的分類性能。

3.1粗標簽表示方法

粗標簽的概念與細標簽相反。對圖片中的一個實例而言，細標簽代表它所屬的特定類別，粗標簽通常是幾個相關(guān)細標簽的共同標簽，我們通常使用額外的標簽來描述實例的粗標簽。這將在存儲上帶來額外的開銷，并且難以使粗標簽和細標簽在訓練期間彼此合并。

CIFAR-100數(shù)據(jù)集為我們提供了圖片所屬的類和超類。CIFAR-100有100個類，每個類包含600個圖像。CIFAR-100中的100個類被分為20個超類。每個圖像都帶有一個“細”標簽（它所屬的類）和一個“粗”標簽（它所屬的超類）。例如，一個名為fish的超類有5個子類別：水族館魚，比目魚，射線，鯊魚和鱒魚。在這種情況下，我們使用額外的標簽“fish”來表示粗標簽。表1顯示了CIFAR-100的細標簽和相應粗標簽。

工業(yè)自動化

在多標簽學習中，我們使用類別向量來表示實例。多標簽學習研究單個實例與多個標簽相關(guān)聯(lián)。假設(shè)總共有N個類別，多標簽向量的位置i為1，表示該實例屬于類i。表示實例的N維多標簽向量如下所示：

[0,0,1,0,0…1,0,0,1,0,0] (1)

在細粒度分類中，一個實例與單個標簽相關(guān)聯(lián)，類別向量是one-hot形式。假設(shè)總共有N個類別，類別向量的位置i為1，表示該實例屬于類i。表示實例的N維單標簽向量如下所示：

[0,0,0…0,1,0,0,0,0] (2)

每個細標簽僅有一個對應的粗標簽，而每個粗標簽至少對應一個細標簽。我們假設(shè)總共有N個細標簽。對于某一個粗標簽，我們假設(shè)有n個對應的細標簽。這n個細標簽分別是a₁,a₂…a_n。我們使用單標簽向量來表示細粒度標簽，而向量的位置i是1，表示它屬于類i。最終的粗標簽是所有相應細標簽的標簽向量的并集。故表示某一實例的N維粗標簽向量如下所示：

[1,1,0,0…0,0,1,0,0] (3)

該粗標簽對應的所有細標簽如下：

[1,0,0,0…0,0,0,0,0] (4)

[0,1,0,0…0,0,0,0,0]

…

[0,0,0,0…0,0,1,0,0]

在生物分類學中，生物類別的關(guān)系通常由父子節(jié)點、兄弟節(jié)點表示，其需要多層樹結(jié)構(gòu)用于存儲。樹結(jié)構(gòu)可以表示許多關(guān)系，但是這種結(jié)構(gòu)的類別信息很難在機器學習中得到有效利用。在機器學習中，所使用的監(jiān)督信息通常是簡單的類別標簽而不是復雜的數(shù)據(jù)結(jié)構(gòu)。相反，我們提出的粗標簽表示方法能夠表示類別之間的結(jié)構(gòu)關(guān)系。具體而言，我們提出的粗標簽表示包含細標簽之間的結(jié)構(gòu)信息；這里的結(jié)構(gòu)信息不僅包括粗標簽與細標簽之間的父子關(guān)系，還包括不同細標簽之間的兄弟關(guān)系。

3.2代價函數(shù)

本文提出了一種新的代價函數(shù)來利用這種粗標簽監(jiān)督信息。該代價函數(shù)將Sigmoid交叉熵函數(shù)與Softmax交叉熵函數(shù)結(jié)合，可以很好地利用粗標簽來改善細標簽分類。在深度網(wǎng)絡(luò)的學習中，代價函數(shù)是評估訓練效果的重要指標，網(wǎng)絡(luò)參數(shù)調(diào)整的目標就是使代價函數(shù)最小化。在卷積神經(jīng)網(wǎng)絡(luò)的訓練中，常用的代價函數(shù)包括Softmax交叉熵函數(shù)，Sigmoid交叉熵函數(shù)等等。

我們假設(shè)一個神經(jīng)網(wǎng)絡(luò)具有參數(shù)θ，輸入圖像為x，正確標簽y，共有N個可能的分類類別。神經(jīng)網(wǎng)絡(luò)對于輸入圖像x產(chǎn)生的條件概率為pθ（x），則我們可以計算正確標簽與條件概率之間的softmax交叉熵：

工業(yè)自動化

Sigmoid交叉熵是離散分類任務中的常用指標，這里每個類是獨立、且不相互排斥的。例如，在多標簽分類任務中，一個圖片可以同時包含房屋和樹。在基于粗標簽約束的細粒度分類中，假設(shè)輸入圖片x，使用的是新提出的粗標簽z作為正確標簽，然后我們計算條件概率pθ（x）和z之間的sigmoid交叉熵：

工業(yè)自動化

對于一個輸入圖片x，監(jiān)督信息為細標簽y，粗標簽z；則最終的代價函數(shù)為：

工業(yè)自動化

最終的代價函數(shù)由兩部分組成，第一部分是L_softmax，第二部分是L_sigmoid。顯然，在傳統(tǒng)的圖像分類中，我們通常使用L_softmax作為代價函數(shù)。所以我們使用細標簽最小化L_softmax代價函數(shù)，并使用粗標簽最小化L_sigmoid。粗標簽包含屬于相同粗標簽的不同細標簽之間的并行關(guān)系；在最小化代價函數(shù)的過程中，我們使用L_sigmoid將細標簽的分類錯誤約束在同一個粗標簽下的細標簽中，并使用L_softmax使模型學習如何正確分類細標簽。參數(shù)a和b是兩個超參數(shù)，它們是測量L_softmax和L_sigmoid對L_final的影響比率；我們通常將a設(shè)置為1，改變b的數(shù)值。

4.實驗設(shè)置

我們使用開源TensorFlow[22]和Pytorch框架來實現(xiàn)，在多個NVIDIATITANXGPU上訓練所有模型。我們將簡要介紹本文中使用的三個細粒度分類數(shù)據(jù)集和一個標準圖像分類數(shù)據(jù)集，我們還將簡要介紹本文中用于微調(diào)的神經(jīng)網(wǎng)絡(luò)。

4.1數(shù)據(jù)集

本文選取了三個主流的細粒度分類數(shù)據(jù)庫CUB、NABirds、StanfordDogs；和一個常規(guī)的圖像分類數(shù)據(jù)庫CIFAR-100作為測評標準。

CUB有5,994個訓練圖片和5,794個測試圖片，共200類。我們只觀察類別名稱的后綴是否相同，然后將它們分成70個超類。因此，對于CUB數(shù)據(jù)集，共有200個細標簽和70個粗標簽。NABirds數(shù)據(jù)集包含23,929個訓練圖片和24,633個測試圖片，共555類，我們使用相同的方法將它們分成156個超類。StanfordDogs數(shù)據(jù)集有12,000個訓練圖片和8,580個測試圖片，共120類，我們使用相同的方法將它們分成72個超類。

我們還利用標準圖像分類數(shù)據(jù)集CIFAR-100進行研究。CIFAR-100數(shù)據(jù)集有100個類，每個類包含600個圖片，分別是500個訓練圖像和100個測試圖像。CIFAR-100中的100個類被分為20個超類。每個圖像都帶有一個“細”標簽（它所屬的類）和一個“粗”標簽（它所屬的超類）。我們使用官方的劃分作為我們的分類標準。上述四個數(shù)據(jù)集在表2中列出：

工業(yè)自動化

4.2網(wǎng)絡(luò)框架

我們?yōu)槿齻€細粒度分類數(shù)據(jù)庫微調(diào)三種類型的網(wǎng)絡(luò)架構(gòu)：VGG19[23]，Resnet50[15]和Inception-V3[16]。我們?yōu)闃藴蕡D像分類數(shù)據(jù)集微調(diào)VGG19和WideResidualNetwork[24]。

VGG.在細粒度分類中，VGG是一個常見的網(wǎng)絡(luò)，如使用VGG作為特征提取器的Bilinear-CNN[18]。VGG采用了比AlexNet[25]更深的網(wǎng)絡(luò)結(jié)構(gòu)，它在2014年ILSVRC比賽的定位和分類分別獲得第一和第二名。VGG網(wǎng)絡(luò)通常具有16-19層，卷積核大小為3x3。本文使用19層VGG網(wǎng)絡(luò)。

ResidualNetwork.殘差網(wǎng)絡(luò)可有效緩解梯度消失，并使網(wǎng)絡(luò)有更深的結(jié)構(gòu)。在我們的實驗中，我們使用ResNet50作為殘差網(wǎng)絡(luò)的代表。

Inception-V3.Inception模塊最初是在GoogleNet中提出的；之后通過引入BatchNormalization、殘差連接等內(nèi)容，進行優(yōu)化。在我們的實驗中，我們使用Inception-V3網(wǎng)絡(luò)作為Inception系列的代表

WideResidualNetwork.由于效果好的殘差網(wǎng)絡(luò)通常很深，許多殘差單元只能提供少量有效信息，或者只有少量塊可以提供重要信息。作者認為殘差網(wǎng)絡(luò)的效果主要來自殘差單元，而深度增加只是一種輔助。因此他減少了殘差網(wǎng)絡(luò)的深度，增加了網(wǎng)絡(luò)的寬度；他提出了16層的WideResidualNetwork，并在標準圖像分類數(shù)據(jù)集上效果與1000層的殘差網(wǎng)絡(luò)相當。

5.結(jié)果分析

5.1細粒度分類數(shù)據(jù)集

我們首先在三個細粒度數(shù)據(jù)集上開展實驗，我們微調(diào)三個在ImageNet數(shù)據(jù)庫上預訓練的網(wǎng)絡(luò)模型。我們的實驗分為兩個步驟，第一步是僅使用細標簽作為監(jiān)督信息，第二步我們使用粗標簽作為新的監(jiān)督信息。在第二步中，我們設(shè)置代價函數(shù)的兩個參數(shù)a=1，b=1，其余超參數(shù)設(shè)置與第一步相同。實驗結(jié)果顯示，我們的方法可以提高任何數(shù)據(jù)集、在任何預訓練網(wǎng)絡(luò)上的性能。結(jié)果見表3,4和5。

工業(yè)自動化

以CUB數(shù)據(jù)集為例，如果使用VGG19預訓練模型，使用粗標簽約束后準確率提高了近7個百分點，使用ResNet50或Inception-V3提高了2個百分點。在ImageNet數(shù)據(jù)庫上，VGG19性能比ResNet50或Inception-V3差一些，這表明VGG的特征提取能力不如ResNet50或Inception-V3，我們通過引入粗標簽監(jiān)督信息后，大大改善了這一點；通過我們的方法，VGG19可以達到與Resnet50相同的效果。在（7）中，代價函數(shù)由a*L_softmax和b*L_sigmoid組成，參數(shù)a,b影響它們在反向傳播時的速度比。我們通常將a設(shè)置為1，然后更改b。如果b大于a，則Sigmoid交叉熵的影響更大。在我們的實驗中，我們發(fā)現(xiàn)通常設(shè)置b的值大于a，這使得網(wǎng)絡(luò)有更好的結(jié)果；這將導致最終增加近一個百分點。例如，當我們使用Inception-V3來微調(diào)具有粗標簽約束的CUB數(shù)據(jù)集時，我們設(shè)置b=2，最終結(jié)果比b=1高0.6％。但是，如何選擇參數(shù)a，b的值仍然需要手動調(diào)整。為了獲得更好的性能，當我們使用不同的模型微調(diào)不同的數(shù)據(jù)集時，參數(shù)值比例并不相同，因此我們在上述實驗中都設(shè)置a=1，b=1。

5.2標準圖像分類數(shù)據(jù)集

在標準圖像分類數(shù)據(jù)庫CIFAR-100上，我們使用兩個卷積神經(jīng)網(wǎng)絡(luò)VGG19和WideResidualNetwork評估我們的方法。CIFAR-100有100個細類和20個超類，每個超類包含五個更精細的子類。實驗結(jié)果見表6.

工業(yè)自動化

如圖1所示，在引入粗標簽約束機制之后，網(wǎng)絡(luò)在測試集的準確率穩(wěn)定地高于原始WRN，這表明該約束機制確實提高了原始WRN的性能。

自動化

圖1.使用WRN和具有粗標簽約束的WRN，在100個epochs之后測試集精度

在我們的實驗中，我們?yōu)榫哂写謽撕灱s束的網(wǎng)絡(luò)和原始網(wǎng)絡(luò)設(shè)置相同的學習率和迭代次數(shù)。我們觀察到準確率曲線非常一致。這表明在引入約束機制之后，網(wǎng)絡(luò)的收斂趨勢沒有大的變化。此外，在初始訓練階段，具有粗標簽約束的網(wǎng)絡(luò)收斂得更快，并且準確度增加得更快。我們可以看到，具有粗標簽約束的網(wǎng)絡(luò)可以明顯地加速收斂，并促進整個網(wǎng)絡(luò)在正確方向上的收斂。表7是與現(xiàn)有方法進行比較。

自動化

6.總結(jié)

在這項工作中，我們提出了新的粗標簽表示，可以很好地表達類別之間的結(jié)構(gòu)信息。并且我們提出了相應的代價函數(shù)，可以利用這種粗標簽監(jiān)督信息，通過粗標簽約束引導細標簽收斂。我們在三個細粒度分類數(shù)據(jù)集和一個標準圖像分類數(shù)據(jù)集中進行了大量實驗，實驗結(jié)果表明，該方法可以加速網(wǎng)絡(luò)收斂，穩(wěn)定地提高原始網(wǎng)絡(luò)性能。

使用粗標簽約束易于實現(xiàn)，可以推廣到任何微調(diào)任務;它不會增加原始模型的大小，也不會增加額外的訓練時間。因此，我們的方法應該有益于大量的模型。將來，我們計劃將我們的方法與現(xiàn)有方法結(jié)合以減少分類錯誤。

自動化

標簽：

分享到：

上一篇：基于長短期記憶神經(jīng)網(wǎng)絡(luò)的可...

下一篇：步進電機的主要運用場合

中國傳動網(wǎng)版權(quán)與免責聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責任。

相關(guān)資訊

技術(shù)熱點