一種基于強化注意力機制和序列優(yōu)化的自動化圖像題注方法

文:商湯科技泛安防智能視頻部門技術(shù)經(jīng)理張帥、商湯科技算法工程師張垚2018年第一期

    圖像題注旨在為輸入圖像自動生成自然語言的描述語句,可用于輔助視覺障礙者感知周圍環(huán)境和幫助人們更便捷地處理大量非結(jié)構(gòu)化視覺信息等場景。當前的主流方法主要是基于深度編碼器-解碼器框架作端到端的訓練優(yōu)化,但由于視覺概念和語義實體之間對應的偏差,導致在題注中對于圖像細粒度語義的識別和理解不足。本文針對此問題,提出了基于檢測特征和蒙特卡羅采樣的注意力機制和基于改進策略梯度的序列優(yōu)化(Sequence Optimization)方法,并將二者融合成一個用于圖像題注的整體框架。

    在我們的方法中,為了更好地提取圖像的強語義特征,首先用Faster R-CNN取代一般的卷積網(wǎng)絡作為編碼器;在此基礎上,基于蒙特卡羅采樣設計一個強化注意力機制(Reinforce Attention),以篩選出當前時刻值得關(guān)注的視覺概念,實現(xiàn)更精準的語義引導。在序列優(yōu)化階段,我們利用折扣因子和詞頻-逆文檔頻率(TF-IDF)因子改進了策略梯度的評估函數(shù),使得生成題注時具有更強語義性的單詞有更大的獎賞值,從而貢獻更多的梯度信息,更好地引導序列優(yōu)化。我們主要在MS COCO數(shù)據(jù)集上進行訓練和評測,模型在當前所有權(quán)威的度量指標得分上都取得了顯著的提升。以CIDEr指標為例,和當前比較代表性的方法[5]和[7]相比,我們的模型在最終得分上分別提升了8.0%和4.1%。

    圖像題注旨在為一幅輸入圖像生成相匹配的自然語言描述,其工作流程如下圖1(a)所示。開放域的圖像題注是一項頗具挑戰(zhàn)的任務,因為它不但需要對圖像中的所有局部和全局實體作實現(xiàn)細粒度語義理解,而且還需要生成這些實體間的屬性和聯(lián)系。從學術(shù)價值上來看,圖像題注領(lǐng)域的研究極大地激發(fā)著關(guān)于計算機視覺(CV)和自然語言處理(NLP)兩大領(lǐng)域如何更好地交叉融合;而在現(xiàn)實應用的維度上,圖像題注的進展對于構(gòu)建一個更好的AI交互系統(tǒng)來說至關(guān)重要,尤其是在輔助視覺障礙者更好地感知世界,以及更全面地協(xié)助人們更加便捷地組織和理解海量的非結(jié)構(gòu)化視覺信息等方面,有很大的價值。

    圖像題注領(lǐng)域的研究進展非??欤诋a(chǎn)生了很多標志性的工作。目前基于深度編碼器-解碼器框架(Encoder-Decoder)的視覺注意力模型(Attention Models),在圖像題注的各個標準數(shù)據(jù)集上都取得了較好的成績。視覺注意力模型主要用于提取空間顯著區(qū)域,以更好地映射到待生成詞匯?;诖搜苌舜罅康母倪M工作,最近有部分研究工作致力于將自底向上(Bottom-up)的物體檢測和屬性預測方法(Object Detection&Attribute Prediction)和注意力機制融合到一起,在評價指標得分上取得了不錯的提升。但所有的這些工作,都采用的是Word-Level的訓練和優(yōu)化方法,這導致了如下兩個問題:第一個是“Exposure Bias”,是指模型在訓練中根據(jù)給定的真實(Ground-Truth)單詞去計算下一個單詞的最大似然,而在測試中卻需要根據(jù)實際的生成(Generation)來預測下一個單詞;第二個問題是模型在訓練和評估中目標的不一致(Inconsistency),因為在訓練時采用交叉熵損失函數(shù),而在評估模型生成的題注(Generated Captions)時,卻采用的是針對NLP領(lǐng)域?qū)S玫囊恍┎豢晌⒌亩攘糠椒ǎ热鏐LEU[11],ROUGE,METEOR和CIDEr等。

    為了解決上述問題,最近的一些工作創(chuàng)新性地引入了基于強化學習的優(yōu)化方法。借助策略梯度和基準函數(shù)(Baseline Function)將原先的單詞級別(Word-Level)的訓練改進成序列化(Sequence-Level)的模式,極大地彌補了原先方案的不足,提升了圖像題注的性能。然而,這些方法也存在一些局限,比如在[5]和[10]中,通過一次序列采樣生成一句完整題注,得到一個獎賞值(Reward),而后默認所有的單詞在梯度優(yōu)化時共享這一個值。顯然,在多數(shù)情況下這樣是不合理的,因為不同的單詞詞性不同、語義有側(cè)重、隱含的信息量顯著差異,應該被區(qū)分為不同的語言實體(Linguistic Entity),在訓練中對應不同的視覺概念(Visual Concepts)。為了解決這些問題,我們提出了如下的融合強化注意力機制和序列優(yōu)化的圖像題注方法。

    在我們的方法中,首先用Faster R-CNN取代一般的卷積網(wǎng)絡作為編碼器,對輸入圖像抽取基于物體檢測和屬性預測的強語義特征向量(Semantic Features)。之后,我們基于蒙特卡羅采樣設計一個強化注意力機制(Reinforce Attention),以篩選出當前時刻值得關(guān)注的視覺概念,實現(xiàn)更精準的語義實體引導。在序列優(yōu)化(Sequence Optimization)階段,我們采用策略梯度方法計算序列的近似梯度。而在計算每個采樣單詞的獎賞值時,我們利用折扣因子和詞頻-逆文檔頻率(TF-IDF)因子改進了原始的策略梯度函數(shù),使得生成題注時具有更強語義性的單詞有更大的獎賞值,從而為訓練貢獻更多的梯度信息,以更好地引導序列優(yōu)化。在實驗中,我們在MS COCO數(shù)據(jù)集上的各項性能指標得分均超過了當前的基線方法,證明了方法設計的有效性。

圖像題注方法

    總體上,圖像題注的方法可以被分為兩大類:一類是基于模板的(template-based),另一類是基于神經(jīng)網(wǎng)絡的(neural network-based)。前者主要通過一個模板來完成題注生成,而這個模板的填充需要基于對象檢測、屬性預測和場景理解的輸出。而本文中提出的方法采用的是跟后者一致的框架,所以下面我們主要介紹基于神經(jīng)網(wǎng)絡做圖像題注的相關(guān)工作。

    近些年,加載了視覺注意力機制的深度編碼器-解碼器的一系列工作,在圖像題注任務的各個標準數(shù)據(jù)集上都取得了非常不錯的結(jié)果。此類方法的核心機制在于:融合了視覺注意力機制的卷積網(wǎng)絡和循環(huán)網(wǎng)絡,能夠更好地挖掘隱含的上下文視覺信息,并在端到端地訓練充分融合局部和全局的實體信息,從而為題注生成提供更強的泛化能力。之后的很多工作從此出發(fā):一方面是繼續(xù)強化和改善注意力機制的功效,提出了一些新的計算模塊或網(wǎng)絡架構(gòu);另一方面,部分工作致力于將基于檢測框架的特征提取和表征方法與注意力機制融合到一起,以獲得更好地實體捕捉能力。

     但是目前基于視覺注意力的方法使用交叉熵的純單詞級別(Word-Level)訓練模式存在兩個顯著的缺陷:Exposure Bias和Inconsistency。為了更好地解決這兩個問題,基于強化學習的優(yōu)化方法被引入圖像題注任務中。其中尤為代表性的工作是[10],他們將問題重新建模為一個策略梯度優(yōu)化問題,并采用REINFORCE算法進行優(yōu)化;為了減小方差、提升訓練穩(wěn)定性,[10]提出了一個混合增量式的訓練方法。隨后[5][15]等工作基于此做了不同的改進,他們主要是提出了更好的基準函數(shù)(Baseline Function),以更大限度地、更高效地提升序列優(yōu)化的效果。但是當前的這些方法存在的一個顯著的局限性是:在對序列梯度進行采樣逼近時,默認一句話中的所有單詞享有共同的獎賞值。而這顯然是不合理的。為了彌補這個缺陷,我們引入了兩種優(yōu)化策略:第一,從強化學習中評估函數(shù)的計算出發(fā),引入折扣因子,更精準地計算每一個單詞采樣回傳的梯度值;第二,是從直接度量驅(qū)動(Metric-Driven)的初衷出發(fā),將TF-IDF因子引入了獎賞計算中,以更好地發(fā)揮強語言實體對于序列整體優(yōu)化的驅(qū)動作用。

方法

    我們的模型整體工作框架如圖1所示,其中(a)是一個從輸入到輸出的前向計算流程,(b)為基于強化學習的序列優(yōu)化過程。下面我們將從語義特征提取,題注生成器和序列優(yōu)化三個方面,依次遞進地介紹我們的方法細節(jié)。

圖1(a) 模型前向計算流程

圖1(b)  基于強化學習的序列優(yōu)化過程

    對于輸入圖像,與常用做法不同的是,我們并非提取卷積特征向量,而是基于物體檢測和屬性預測提取圖像的語義特征向量,使得在訓練過程中可以更好地與真實題注語句中的語言實體相匹配。在本文中,我們用 Faster R-CNN 作為圖像題注模型中的視覺編碼器。給定輸入圖片,需要輸出的語義特征記為:。我們對 FasterR-CNN 最后的輸出做一個非極大值抑制(Non-maximumSuppression),對于每一個選中的候選區(qū)域 i,定義為該區(qū)域的池化后的卷積特征。這里我們首先用在 ImageNet 上預訓練過的 ResNet-101 對編碼器進行初始化,隨后將其放到Visual Genome 數(shù)據(jù)集上加訓。Visual Genome 數(shù)據(jù)集是一個用來做屬性預測的數(shù)據(jù)集,通過這一輪加訓,我們將池化卷積特征和屬性預測的輸出向量進行串聯(lián)(concatenation)運算,從而得到最終的語義特征向量。

2、題注生成器(Caption Generator)

(1)模型結(jié)構(gòu)和目標函數(shù)給定一幅圖像以及相應的語義特征向量,我們的模型需要生成相對應的題注,這里是我們提取的詞典,其大小記為 )??傮w上我們的生成器由兩層 LSTM 構(gòu)成,生成題注過程中每一步(time-step)執(zhí)行的操作可公式化為:

(1)

其中表示標準的 LSTM 內(nèi)部計算圖, 和分別表示其輸入向量,輸出向量和記憶單元(Memory Cell)。每個單詞的似然由條件概率決定,每次前向計算中依照如下公式:

(2)

其中,是第二層 LSTM 是輸出,分別是待學習的權(quán)重和偏置。當前生成序列的概率是所有單詞的條件概率的乘積:

 

中傳動網(wǎng)版權(quán)與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負版權(quán)法律責任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運動控制

關(guān)注伺服與運動控制公眾號獲取更多資訊

直驅(qū)與傳動

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

中國傳動網(wǎng)

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運動控制

    2023年第1期