您現(xiàn)在的位置：中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 一種基于強(qiáng)化注意力機(jī)制和序列優(yōu)化的自動(dòng)化圖像題注方法

一種基于強(qiáng)化注意力機(jī)制和序列優(yōu)化的自動(dòng)化圖像題注方法

時(shí)間：2018-03-07 15:46:33來源：中國傳動(dòng)網(wǎng)

導(dǎo)語：?圖像題注旨在為輸入圖像自動(dòng)生成自然語言的描述語句，可用于輔助視覺障礙者感知周圍環(huán)境和幫助人們更便捷地處理大量非結(jié)構(gòu)化視覺信息等場景。

圖像題注旨在為輸入圖像自動(dòng)生成自然語言的描述語句，可用于輔助視覺障礙者感知周圍環(huán)境和幫助人們更便捷地處理大量非結(jié)構(gòu)化視覺信息等場景。當(dāng)前的主流方法主要是基于深度編碼器-解碼器框架作端到端的訓(xùn)練優(yōu)化，但由于視覺概念和語義實(shí)體之間對(duì)應(yīng)的偏差，導(dǎo)致在題注中對(duì)于圖像細(xì)粒度語義的識(shí)別和理解不足。本文針對(duì)此問題，提出了基于檢測特征和蒙特卡羅采樣的注意力機(jī)制和基于改進(jìn)策略梯度的序列優(yōu)化（Sequence Optimization）方法，并將二者融合成一個(gè)用于圖像題注的整體框架。

在我們的方法中，為了更好地提取圖像的強(qiáng)語義特征，首先用Faster R-CNN取代一般的卷積網(wǎng)絡(luò)作為編碼器；在此基礎(chǔ)上，基于蒙特卡羅采樣設(shè)計(jì)一個(gè)強(qiáng)化注意力機(jī)制（Reinforce Attention），以篩選出當(dāng)前時(shí)刻值得關(guān)注的視覺概念，實(shí)現(xiàn)更精準(zhǔn)的語義引導(dǎo)。在序列優(yōu)化階段，我們利用折扣因子和詞頻-逆文檔頻率（TF-IDF）因子改進(jìn)了策略梯度的評(píng)估函數(shù)，使得生成題注時(shí)具有更強(qiáng)語義性的單詞有更大的獎(jiǎng)賞值，從而貢獻(xiàn)更多的梯度信息，更好地引導(dǎo)序列優(yōu)化。我們主要在MS COCO數(shù)據(jù)集上進(jìn)行訓(xùn)練和評(píng)測，模型在當(dāng)前所有權(quán)威的度量指標(biāo)得分上都取得了顯著的提升。以CIDEr指標(biāo)為例，和當(dāng)前比較代表性的方法[5]和[7]相比，我們的模型在最終得分上分別提升了8.0%和4.1%。

圖像題注旨在為一幅輸入圖像生成相匹配的自然語言描述，其工作流程如下圖1（a）所示。開放域的圖像題注是一項(xiàng)頗具挑戰(zhàn)的任務(wù)，因?yàn)樗坏枰獙?duì)圖像中的所有局部和全局實(shí)體作實(shí)現(xiàn)細(xì)粒度語義理解，而且還需要生成這些實(shí)體間的屬性和聯(lián)系。從學(xué)術(shù)價(jià)值上來看，圖像題注領(lǐng)域的研究極大地激發(fā)著關(guān)于計(jì)算機(jī)視覺（CV）和自然語言處理（NLP）兩大領(lǐng)域如何更好地交叉融合；而在現(xiàn)實(shí)應(yīng)用的維度上，圖像題注的進(jìn)展對(duì)于構(gòu)建一個(gè)更好的AI交互系統(tǒng)來說至關(guān)重要，尤其是在輔助視覺障礙者更好地感知世界，以及更全面地協(xié)助人們更加便捷地組織和理解海量的非結(jié)構(gòu)化視覺信息等方面，有很大的價(jià)值。

圖像題注領(lǐng)域的研究進(jìn)展非?？?，近期產(chǎn)生了很多標(biāo)志性的工作。目前基于深度編碼器-解碼器框架（Encoder-Decoder）的視覺注意力模型（Attention Models），在圖像題注的各個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了較好的成績。視覺注意力模型主要用于提取空間顯著區(qū)域，以更好地映射到待生成詞匯。基于此衍生了大量的改進(jìn)工作，最近有部分研究工作致力于將自底向上（Bottom-up）的物體檢測和屬性預(yù)測方法（Object Detection&Attribute Prediction）和注意力機(jī)制融合到一起，在評(píng)價(jià)指標(biāo)得分上取得了不錯(cuò)的提升。但所有的這些工作，都采用的是Word-Level的訓(xùn)練和優(yōu)化方法，這導(dǎo)致了如下兩個(gè)問題：第一個(gè)是“Exposure Bias”，是指模型在訓(xùn)練中根據(jù)給定的真實(shí)（Ground-Truth）單詞去計(jì)算下一個(gè)單詞的最大似然，而在測試中卻需要根據(jù)實(shí)際的生成（Generation）來預(yù)測下一個(gè)單詞；第二個(gè)問題是模型在訓(xùn)練和評(píng)估中目標(biāo)的不一致（Inconsistency），因?yàn)樵谟?xùn)練時(shí)采用交叉熵?fù)p失函數(shù)，而在評(píng)估模型生成的題注（Generated Captions）時(shí)，卻采用的是針對(duì)NLP領(lǐng)域?qū)Ｓ玫囊恍┎豢晌⒌亩攘糠椒?，比如BLEU[11]，ROUGE，METEOR和CIDEr等。

為了解決上述問題，最近的一些工作創(chuàng)新性地引入了基于強(qiáng)化學(xué)習(xí)的優(yōu)化方法。借助策略梯度和基準(zhǔn)函數(shù)（Baseline Function）將原先的單詞級(jí)別（Word-Level）的訓(xùn)練改進(jìn)成序列化（Sequence-Level）的模式，極大地彌補(bǔ)了原先方案的不足，提升了圖像題注的性能。然而，這些方法也存在一些局限，比如在[5]和[10]中，通過一次序列采樣生成一句完整題注，得到一個(gè)獎(jiǎng)賞值（Reward），而后默認(rèn)所有的單詞在梯度優(yōu)化時(shí)共享這一個(gè)值。顯然，在多數(shù)情況下這樣是不合理的，因?yàn)椴煌膯卧~詞性不同、語義有側(cè)重、隱含的信息量顯著差異，應(yīng)該被區(qū)分為不同的語言實(shí)體（Linguistic Entity），在訓(xùn)練中對(duì)應(yīng)不同的視覺概念（Visual Concepts）。為了解決這些問題，我們提出了如下的融合強(qiáng)化注意力機(jī)制和序列優(yōu)化的圖像題注方法。

在我們的方法中，首先用Faster R-CNN取代一般的卷積網(wǎng)絡(luò)作為編碼器，對(duì)輸入圖像抽取基于物體檢測和屬性預(yù)測的強(qiáng)語義特征向量（Semantic Features）。之后，我們基于蒙特卡羅采樣設(shè)計(jì)一個(gè)強(qiáng)化注意力機(jī)制（Reinforce Attention），以篩選出當(dāng)前時(shí)刻值得關(guān)注的視覺概念，實(shí)現(xiàn)更精準(zhǔn)的語義實(shí)體引導(dǎo)。在序列優(yōu)化（Sequence Optimization）階段，我們采用策略梯度方法計(jì)算序列的近似梯度。而在計(jì)算每個(gè)采樣單詞的獎(jiǎng)賞值時(shí)，我們利用折扣因子和詞頻-逆文檔頻率（TF-IDF）因子改進(jìn)了原始的策略梯度函數(shù)，使得生成題注時(shí)具有更強(qiáng)語義性的單詞有更大的獎(jiǎng)賞值，從而為訓(xùn)練貢獻(xiàn)更多的梯度信息，以更好地引導(dǎo)序列優(yōu)化。在實(shí)驗(yàn)中，我們在MS COCO數(shù)據(jù)集上的各項(xiàng)性能指標(biāo)得分均超過了當(dāng)前的基線方法，證明了方法設(shè)計(jì)的有效性。

圖像題注方法

總體上，圖像題注的方法可以被分為兩大類：一類是基于模板的（template-based），另一類是基于神經(jīng)網(wǎng)絡(luò)的（neural network-based）。前者主要通過一個(gè)模板來完成題注生成，而這個(gè)模板的填充需要基于對(duì)象檢測、屬性預(yù)測和場景理解的輸出。而本文中提出的方法采用的是跟后者一致的框架，所以下面我們主要介紹基于神經(jīng)網(wǎng)絡(luò)做圖像題注的相關(guān)工作。

近些年，加載了視覺注意力機(jī)制的深度編碼器-解碼器的一系列工作，在圖像題注任務(wù)的各個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上都取得了非常不錯(cuò)的結(jié)果。此類方法的核心機(jī)制在于：融合了視覺注意力機(jī)制的卷積網(wǎng)絡(luò)和循環(huán)網(wǎng)絡(luò)，能夠更好地挖掘隱含的上下文視覺信息，并在端到端地訓(xùn)練充分融合局部和全局的實(shí)體信息，從而為題注生成提供更強(qiáng)的泛化能力。之后的很多工作從此出發(fā)：一方面是繼續(xù)強(qiáng)化和改善注意力機(jī)制的功效，提出了一些新的計(jì)算模塊或網(wǎng)絡(luò)架構(gòu)；另一方面，部分工作致力于將基于檢測框架的特征提取和表征方法與注意力機(jī)制融合到一起，以獲得更好地實(shí)體捕捉能力。

但是目前基于視覺注意力的方法使用交叉熵的純單詞級(jí)別（Word-Level）訓(xùn)練模式存在兩個(gè)顯著的缺陷：Exposure Bias和Inconsistency。為了更好地解決這兩個(gè)問題，基于強(qiáng)化學(xué)習(xí)的優(yōu)化方法被引入圖像題注任務(wù)中。其中尤為代表性的工作是[10]，他們將問題重新建模為一個(gè)策略梯度優(yōu)化問題，并采用REINFORCE算法進(jìn)行優(yōu)化；為了減小方差、提升訓(xùn)練穩(wěn)定性，[10]提出了一個(gè)混合增量式的訓(xùn)練方法。隨后[5][15]等工作基于此做了不同的改進(jìn)，他們主要是提出了更好的基準(zhǔn)函數(shù)（Baseline Function），以更大限度地、更高效地提升序列優(yōu)化的效果。但是當(dāng)前的這些方法存在的一個(gè)顯著的局限性是：在對(duì)序列梯度進(jìn)行采樣逼近時(shí)，默認(rèn)一句話中的所有單詞享有共同的獎(jiǎng)賞值。而這顯然是不合理的。為了彌補(bǔ)這個(gè)缺陷，我們引入了兩種優(yōu)化策略：第一，從強(qiáng)化學(xué)習(xí)中評(píng)估函數(shù)的計(jì)算出發(fā)，引入折扣因子，更精準(zhǔn)地計(jì)算每一個(gè)單詞采樣回傳的梯度值；第二，是從直接度量驅(qū)動(dòng)（Metric-Driven）的初衷出發(fā)，將TF-IDF因子引入了獎(jiǎng)賞計(jì)算中，以更好地發(fā)揮強(qiáng)語言實(shí)體對(duì)于序列整體優(yōu)化的驅(qū)動(dòng)作用。

方法

我們的模型整體工作框架如圖1所示，其中（a）是一個(gè)從輸入到輸出的前向計(jì)算流程，（b）為基于強(qiáng)化學(xué)習(xí)的序列優(yōu)化過程。下面我們將從語義特征提取，題注生成器和序列優(yōu)化三個(gè)方面，依次遞進(jìn)地介紹我們的方法細(xì)節(jié)。

圖1（a）模型前向計(jì)算流程

圖1（b）基于強(qiáng)化學(xué)習(xí)的序列優(yōu)化過程

對(duì)于輸入圖像，與常用做法不同的是，我們并非提取卷積特征向量，而是基于物體檢測和屬性預(yù)測提取圖像的語義特征向量，使得在訓(xùn)練過程中可以更好地與真實(shí)題注語句中的語言實(shí)體相匹配。在本文中，我們用 Faster R-CNN 作為圖像題注模型中的視覺編碼器。給定輸入圖片，需要輸出的語義特征記為：。我們對(duì) FasterR-CNN 最后的輸出做一個(gè)非極大值抑制（Non-maximumSuppression），對(duì)于每一個(gè)選中的候選區(qū)域 i，定義為該區(qū)域的池化后的卷積特征。這里我們首先用在 ImageNet 上預(yù)訓(xùn)練過的 ResNet-101 對(duì)編碼器進(jìn)行初始化，隨后將其放到Visual Genome 數(shù)據(jù)集上加訓(xùn)。Visual Genome 數(shù)據(jù)集是一個(gè)用來做屬性預(yù)測的數(shù)據(jù)集，通過這一輪加訓(xùn)，我們將池化卷積特征和屬性預(yù)測的輸出向量進(jìn)行串聯(lián)（concatenation）運(yùn)算，從而得到最終的語義特征向量。

2、題注生成器（Caption Generator）

（1）模型結(jié)構(gòu)和目標(biāo)函數(shù)給定一幅圖像以及相應(yīng)的語義特征向量，我們的模型需要生成相對(duì)應(yīng)的題注，這里（是我們提取的詞典，其大小記為）。總體上我們的生成器由兩層 LSTM 構(gòu)成，生成題注過程中每一步（time-step）執(zhí)行的操作可公式化為：

（1）

其中表示標(biāo)準(zhǔn)的 LSTM 內(nèi)部計(jì)算圖，和分別表示其輸入向量，輸出向量和記憶單元（Memory Cell）。每個(gè)單詞的似然由條件概率決定，每次前向計(jì)算中依照如下公式：

（2）

其中，是第二層 LSTM 是輸出，和分別是待學(xué)習(xí)的權(quán)重和偏置。當(dāng)前生成序列的概率是所有單詞的條件概率的乘積：

標(biāo)簽：

分享到：

上一篇：智能語音前沿技術(shù)——發(fā)音檢...

下一篇：木工行業(yè)解決方案

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點(diǎn)