都挺好电视剧,鄂州一家亲

基于深度神經(jīng)網(wǎng)絡(luò)和少量視音頻訓(xùn)練樣本的自然情景下的情緒識(shí)別

文：作者較多，參考正文詳細(xì)列出2018年第三期

文：WanDing1,MingyuXu2,DongyanHuang3,WeisiLin4,MinghuiDong3,XinguoYu1,HaizhouLi3,5

1.CentralChinaNormalUniversity,China

2.UniversityofBritishColumbia,Canada

3.ASTAR,Singapore

4.NanyangTechnologicalUniversity,Singapore

5.ECEDepartment,NationalUniversityofSingapore,Singapore

摘要

本文介紹了團(tuán)隊(duì)在2016年自然情景下音視頻情緒識(shí)別挑戰(zhàn)（EmotionRecognitionintheWildChallenge2016）的參賽系統(tǒng)。EmotiW2016挑戰(zhàn)的任務(wù)是根據(jù)視頻片段中人物的表情動(dòng)作和聲音將視頻按七種基本情緒（無情緒、憤怒、悲傷、快樂、驚奇、恐懼和厭惡）進(jìn)行分類。EmotiW2016挑戰(zhàn)任務(wù)的訓(xùn)練和測試數(shù)據(jù)來源于電影和電視真人秀節(jié)目的片段。本文提出的解決方案首先基于視頻（臉部表情）和音頻兩個(gè)信息通道來分別進(jìn)行情緒識(shí)別，然后將臉部識(shí)別和聲音識(shí)別子系統(tǒng)的預(yù)測結(jié)果進(jìn)行融合（ScoreLevelFusion）。

視頻情緒識(shí)別首先提取臉部表情圖像的卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征。圖像特征提取所使用的深度卷積神經(jīng)網(wǎng)絡(luò)以預(yù)先訓(xùn)練好的ImageNet神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)，然后在FER2013圖像數(shù)據(jù)集上針對臉部情緒識(shí)別任務(wù)進(jìn)行微調(diào)（FineTuning）；然后基于CNN特征和三種圖像集合模型（ImageSetModel）提取視頻特征；最后使用不同的核分類器（SVM,PLS等）來對臉部視頻進(jìn)行情緒分類。音頻情感識(shí)別則沒有利用外部數(shù)據(jù)集而是直接使用挑戰(zhàn)數(shù)據(jù)集來訓(xùn)練長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)（Long-ShortTermMemoryRecurrentNeuralNetwork,LSTM-RNN）。實(shí)驗(yàn)結(jié)果表明文本提出的視頻識(shí)別子系統(tǒng)、音頻識(shí)別子系統(tǒng)以及他們的融合在準(zhǔn)確率方面均能達(dá)到當(dāng)前最先進(jìn)的性能。該系統(tǒng)在EmotiW2016挑戰(zhàn)的測試數(shù)據(jù)集上的識(shí)別準(zhǔn)確率為53.9％，比基準(zhǔn)線（40.47％）高出13.5%。

引言

作為人機(jī)情感交互的關(guān)鍵技術(shù)之一，基于音視頻信號(hào)的情緒識(shí)別這一課題的研究已活躍了數(shù)十年。早期的音視頻情緒識(shí)別研究主要集中在實(shí)驗(yàn)室擺拍條件下的情緒識(shí)別。近年來隨著技術(shù)的發(fā)展，越來越多的研究者開始把注意力轉(zhuǎn)向了自然情景下的情緒識(shí)別。諸如面部表情識(shí)別和分析挑戰(zhàn)（FacialExpressionRecognitionandAnalysisChallenge，F(xiàn)ERA）[1]、音頻/視覺情緒挑戰(zhàn)（Audio/VisualEmotionChallenge，AVEC）[2]以及自然情境下的情感識(shí)別（EmotionRecognitionintheWildChallenge，EmotiW）[3]已經(jīng)成為人們研究和測試其自然情景下情緒識(shí)別方法的基準(zhǔn)（Benchmark）。

對于情緒識(shí)別，臉部表情和聲音是最主要的兩個(gè)信息通道。在所有的情緒表達(dá)信息中，臉部和聲音部分占了近93％[4]?；跁r(shí)間維度特征提取方法的不同，臉部情緒識(shí)別可以分為三類。第一類基于人工設(shè)計(jì)的時(shí)空特征（諸如LocalBinaryPatternsfromThreeOrthogonalPlanes(LBP-TOP)和LocalPhaseQuantizationfromThreeOrthogonalPlanes(LPQ-TOP)[5-7]。

第一類方法將視頻數(shù)據(jù)視為三維像素體序列，沿著像素體的每一面（空間和時(shí)空維度）進(jìn)行紋理特征的提取。第二類方法將視頻視為一組圖像，基于圖像集合的建模方法（ImageSetModeling）來提取視頻特征并用于情緒識(shí)別?；趫D像集的方法將視頻幀視為在不同條件下（姿態(tài)，照明等）捕獲的同一對象的圖像。第三類方法利用序列模型（SequenceModel），如遞歸神經(jīng)網(wǎng)絡(luò)（RecurrentNeuralNetwork,RNN）來捕獲視頻所包含的的情緒識(shí)別的時(shí)間維度特征。與基于時(shí)空特征的方法相比，基于圖像集的方法和RNN方法對面部表情在時(shí)間維度的變化更加魯棒。RNN模型一般含有大量的自由變量。在訓(xùn)練視頻樣本較少的情況下基于圖像集的方法相比RNN方法可以獲得更好的識(shí)別結(jié)果[8-9,37]。在視頻幀的圖像特征提取方面，一種方式是使用人工設(shè)計(jì)的特征，如Liu等人[8]將DenseSIFT[9]，HistogramofOrientedGradients（HOG）[10]等傳統(tǒng)特征與不同的圖像集建模方法[11-14]進(jìn)行結(jié)合以用于臉部視頻的情緒識(shí)別。[8]所展示的實(shí)驗(yàn)結(jié)果還表明不同的傳統(tǒng)圖像特征對臉部情緒識(shí)別還具有互補(bǔ)作用。

Yao等人[15]定義了一種基于臉部圖像局部區(qū)域之間的差異的情緒識(shí)別特征。他們首先通過臉部正面化（frontalization）技術(shù)來配準(zhǔn)局部區(qū)域[16]，然后在局部區(qū)域上提取LBP特征，最后使用特征選擇來檢測最具差異性的區(qū)域并將這些區(qū)域的LBP特征值的差值作為人臉圖像的情緒識(shí)別特征。他們的方法在EmotiW2015中的靜態(tài)和視音頻情緒識(shí)別挑戰(zhàn)上均取得了良好的效果。除了人工設(shè)計(jì)圖像特征之外，圖像特征提取的另一種方法是使用深度卷積神經(jīng)網(wǎng)絡(luò)（DeepConvolutionalNeuralNetwork，DCNN）。

這里的“深”表示網(wǎng)絡(luò)具有三個(gè)以上的卷積層。DCNN是一種端到端的圖像分類模型，其卷積層的輸出可以作為圖像特征且具有一定的通用性[17]。訓(xùn)練有效的DCNN通常需要大量的數(shù)據(jù)樣本(如10萬張臉部表情圖像)；然而目前公開的臉部情緒識(shí)別的數(shù)據(jù)集通常很?。ㄈ鏔ER2013只有3萬張圖像）。為了解決這一問題，Liu等人[8]使用人臉識(shí)別數(shù)據(jù)集CFW[18]（約17萬張圖像）來訓(xùn)練DCNN。實(shí)驗(yàn)表明學(xué)習(xí)到的DCNN特征比傳統(tǒng)的手工特征（Dense-SIFT和HOG）效果更好。Ng等人[19]利用遷移學(xué)習(xí)策略，將預(yù)先訓(xùn)練好的通用圖像識(shí)別網(wǎng)絡(luò)作為情緒識(shí)別網(wǎng)絡(luò)的初始化，再FER-2013數(shù)據(jù)集[20]對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練（權(quán)值的微調(diào)）。經(jīng)過微調(diào)的DCNN在EmotiW2015靜態(tài)面部表情識(shí)別子挑戰(zhàn)中取得了不錯(cuò)的成績。Kim等人[37]基于決策融合方法，直接使用小數(shù)據(jù)集訓(xùn)練多個(gè)DCNN并將DCNN對與臉部圖片的情緒預(yù)測結(jié)果進(jìn)行均值融合。不過多個(gè)DCNN的特征融合方法仍有待研究。

在音頻情緒識(shí)別方面，經(jīng)驗(yàn)表明情緒識(shí)別音頻特征與臉部視覺特征互補(bǔ)。將基于面部和基于音頻的情緒識(shí)別結(jié)果進(jìn)行融合可以取得比單一通道更好的結(jié)果[8-9,21-22]。近年來LSTM-RNN[26]在語音情感識(shí)別和其他聲學(xué)建模任務(wù)中得到了普遍地使用[2,22-23,27-29]。與傳統(tǒng)的隱馬爾可夫模型（HMM）[23]和標(biāo)準(zhǔn)遞歸神經(jīng)網(wǎng)絡(luò)（StandardRNN）等模型相比，LSTM-RNN可以提取較長時(shí)間間隔（例如>100個(gè)時(shí)間步長）的關(guān)聯(lián)特征而不會(huì)遇到梯度消失等問題[25]。

本文所介紹的系統(tǒng)結(jié)合了不同的方法。臉部視頻情緒識(shí)別基于DCNN特征和圖像集合建模，音頻情緒識(shí)別基于LSTM-RNN模型。本文的主要工作有兩方面。第一個(gè)方面是DCNN圖像特征的提取采用了基于權(quán)值微調(diào)的遷移學(xué)習(xí)方法，基于少量樣本訓(xùn)練得到的臉部圖像情緒識(shí)別DCNN特征的表現(xiàn)超過臉部識(shí)別大數(shù)據(jù)集訓(xùn)練所得到的DCNN特征[19]。第二個(gè)方面是我們所訓(xùn)練使用的音頻情緒識(shí)別LSTM-RNN模型，只使用了少量的訓(xùn)練樣本（EmotiW2016所提供的773個(gè)音頻句子），但是在識(shí)別率方面仍然超出基準(zhǔn)方法7％。方法的細(xì)節(jié)將在后面章節(jié)中具體介紹。

1.提出的方法

1.1基于面部視頻的情緒識(shí)別

本文所提出的面部視頻情緒識(shí)別方法由由三個(gè)步驟組成。第一步是對視頻每一幀的臉部圖像提取DCNN圖像特征。第二步是基于圖像集建模方法提取動(dòng)態(tài)特征。最后一步是分類。由于基于圖像集的視頻特征通常位于非歐幾里德流形上[13]，因此在特征提取后使用核函數(shù)將它們映射到歐幾里德空間進(jìn)行最終分類。在我們所使用的方法中，第二步和第三步直接應(yīng)用了文獻(xiàn)[8]所提供的開源代碼進(jìn)行動(dòng)態(tài)特征提取和分類。

1.1.1DeepCNN圖像特征

卷積神經(jīng)網(wǎng)絡(luò)借鑒了動(dòng)物視覺皮層中神經(jīng)元的組織結(jié)構(gòu)。網(wǎng)絡(luò)結(jié)構(gòu)通過局部連通性（LocalConnectivity）、權(quán)值共享（WeightSharing）和池化（Pooling）等技術(shù)來達(dá)到諸如減少網(wǎng)絡(luò)復(fù)雜度和特征的平移不變性等效果。DeepCNN一般包含多層卷積層，卷積層的輸出可以作為輸入圖像的特征描述。假設(shè)輸入圖像是IW,H,C，其中W表示寬度，H表示高度，C表示通道的數(shù)量（一般輸入圖像為RGB通道）。對于I中的一個(gè)局部區(qū)域Lw,h,C,

(1)

其中Kw,h,C是與L大小相同的核（kernel）;*表示卷積運(yùn)算;b表示偏差變量（bias）;σ表示激活函數(shù)（activationfunction），在實(shí)踐中通常是整流線性單元（RELU）;oL表示L區(qū)域的特征值。通過將核K與I中的每個(gè)局部區(qū)域進(jìn)行卷積計(jì)算，我們可以得到特征圖M，然后將其作為圖像特征向量用于進(jìn)一步處理。

1.1.2臉部視頻的動(dòng)態(tài)特征

給定d維圖像特征f，可將視頻視為一組圖像特征向量F=[f1,f2...fn]，其中fiÎRd是視頻第i幀對應(yīng)的特征向量。三種圖像集合模型被用于從F中提取視頻（圖像集合）特征，它們分別是線性子空間（LinearSubspace）[14]，協(xié)方差矩陣[13]和多維高斯分布[15]。線性子空間模型所對應(yīng)的特征向量P通過以下方式計(jì)算：

(2)

其中P=[p1,p2...pr]，pj（jÎ[1,r]）表示主特征向量（eigenvector）。

協(xié)方差矩陣C通過以下方式找到：

(3)

其中表示圖像特征的平均值。假設(shè)F中的特征向量遵循d維高斯分布N(μ，∑），μ和∑分別表示均值和協(xié)方差。高斯分布的特征通過以下方式計(jì)算定義：

(4)

(5)

1.1.3核函數(shù)和分類器

在核函數(shù)方面，我們選擇了多項(xiàng)式（Polynomial）和RBF(Radialbasisfunction)兩種核函數(shù)。在分類器方面我們采用了PLS（PartialLeastSquaresRegression）[30]。Liu等人在EmotiW2014數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果[8]顯示PLS在面部情緒識(shí)別方面優(yōu)于支持向量機(jī)（SVM）和LogisticRegression;我們在EmotiW2016的數(shù)據(jù)集上也觀察到相同的趨勢。給定視頻特征變量X和0-1標(biāo)簽Y（七種基本情緒識(shí)別可以視作七個(gè)二分類任務(wù)），PLS分類器將它們分解為

其中Ux和Uy是projectedX-scores和Y-scores，Vx和Vy分別表示loadings，rx和ry表示residuals。PLS通過找到在其列向量之間具有最大協(xié)方差的Ux和Uy來確定X和Y之間的回歸系數(shù)。假設(shè)UX和UY是最大協(xié)方差投影，則回歸系數(shù)β由下式給出：

給定一個(gè)視頻特征向量x，它對應(yīng)的分類預(yù)測為.

1.2基于音頻的情緒識(shí)別

基于音頻的情緒識(shí)別方法首先逐幀提取聲學(xué)特征，然后通過訓(xùn)練LSTM-RNN（LongShort-TermMemoryRecurrentNeuralNetwork）進(jìn)行時(shí)間維度特征的提取和情緒分類。假設(shè)一個(gè)影片剪輯所對應(yīng)的音頻特征序列是F=[f1,f2...fn]，所對應(yīng)的情緒分類標(biāo)簽是c。在訓(xùn)練LSTM-RNN之前我們逐幀定義情緒標(biāo)簽C=[c1,c2...cn]，其中ci=cforifrom1ton。對應(yīng)的LSTM所輸出的也是逐幀的預(yù)測結(jié)果。我們?nèi)≈饚A(yù)測結(jié)果的平均值作為視頻剪輯的情緒識(shí)別的最終預(yù)測結(jié)果。

1.2.1音頻特征

方法采用extendedversionofGenevaMinimalisticAcousticParameterSet(eGeMAPS)[31]音頻特征集來進(jìn)行情緒識(shí)別。eGeMAPS中的音頻特征集基于專家知識(shí)設(shè)計(jì)，與傳統(tǒng)的高維特征集[32]相比eGeMAPS僅有88維特征，但是對語音情感建模問題表現(xiàn)出了的更高的魯棒性[33-34]。eGeMAPS的acousticlow-leveldescriptors(LLD)涵蓋了spectral、cepstral、prosodic以及voicequality等方面的信息。除了LLD之外，eGeMAPS還包含arithmeticmean和coefficientofvariation等統(tǒng)計(jì)特征。

1.2.2LSTM-RNN

相比sigmoid和tanh等傳統(tǒng)的激活函數(shù)，LSTM-RNN使用一種特殊的激活函數(shù)稱為MemoryBlocks。LSTMMemoryBlocks的結(jié)構(gòu)如圖2所示。對于一個(gè)網(wǎng)絡(luò)層中MemoryBlock而言它在t時(shí)刻的輸入是前一網(wǎng)絡(luò)層在t時(shí)刻的輸出xt,，和當(dāng)前Block在t-1時(shí)刻的輸出ht-1。MemoryBlock的結(jié)構(gòu)由四個(gè)主要部分組成。這四個(gè)主要部分是：inputgate,memorycell,forgetgate以及outputgate。Memorycell結(jié)構(gòu)具有一個(gè)權(quán)值為1.0的自連接。Memorycell結(jié)構(gòu)確保在排除外部輸入的情況下，MemoryCell的狀態(tài)保持恒定。Inputgate允許（或屏蔽）輸入信號(hào)對memorycell的狀態(tài)或者進(jìn)行改變。Outputgate允許（或屏蔽）memorycell的狀態(tài)對block的輸出進(jìn)行改變。Forgetgate可以調(diào)整memorycell的自回復(fù)連接，使cell根據(jù)需要選擇保持或清除其之前的狀態(tài)。MemoryBlock的計(jì)算過程如下所示：

其中xt和ht-1表示輸入;W,U表示V是權(quán)值矩陣;b表示偏差向量，σ表示sigmoid函數(shù);

表示t時(shí)刻cell的狀態(tài)候選;f，c和o分別表示InputGate,ForgetGate,MemoryCell和OutputGate的輸出。h表示block在t時(shí)刻的最終輸出。

1.3系統(tǒng)的融合

基于面部視頻和音頻子系統(tǒng)的預(yù)測結(jié)果我們進(jìn)一步進(jìn)行了融合。融合引入了一個(gè)加權(quán)向量w=[λ1,λ2…λc]。其中c表示情緒類別的數(shù)量。最終預(yù)測結(jié)果S的計(jì)算方法為

其中SAandSV分別表示音頻和視頻子系統(tǒng)的情緒識(shí)別預(yù)測結(jié)果。

2.實(shí)驗(yàn)

2.1EmotiW2016數(shù)據(jù)

基于視音頻的情緒識(shí)別是EmotiW2016所設(shè)立的子挑戰(zhàn)之一。數(shù)據(jù)集的樣本為多媒體視頻片段。樣本所對應(yīng)的情緒狀態(tài)通過[40]中所定義的半自動(dòng)方法進(jìn)行標(biāo)注?；谝曇纛l的情緒識(shí)別的任務(wù)是設(shè)計(jì)算法自動(dòng)對視頻片段按七種基本情緒狀態(tài)（憤怒（Ang）、厭惡(Dis)、恐懼（Fea）、快樂(Hap)、中立(Neu)、悲傷(Sad)、驚喜(Sur)）進(jìn)行分類。EmotiW2016是EmotiW2013-15的延續(xù)，主要變化在于除了從電影中提取的視頻片段之外，還將真人秀節(jié)目的視頻片段引入到測試集中，以測試在基于電影數(shù)據(jù)所訓(xùn)練的情緒識(shí)別方法的通用性。子挑戰(zhàn)的數(shù)據(jù)集包含1739個(gè)視頻片段：其中訓(xùn)練集(Train)的樣本數(shù)為773個(gè)，驗(yàn)證集（Validation）的樣本數(shù)為373個(gè)，測試集（Test）的樣本數(shù)為593個(gè)。挑戰(zhàn)的最終結(jié)果以系統(tǒng)在測試集上的準(zhǔn)確率為準(zhǔn)。

2.2深度神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

2.2.1CNN圖像特征提取

我們使用Caffe工具包[38]，和FER2013數(shù)據(jù)集對預(yù)先訓(xùn)練的AlexNetDeepCNN模型[39]進(jìn)行微調(diào)。預(yù)訓(xùn)練的AlexNet模型和FER2013數(shù)據(jù)集都是公開的。在使用FER2013數(shù)據(jù)集（~28000張臉部圖像）時(shí)，我們首先將FER2013默認(rèn)的48x48x1圖像尺寸縮放至256x256x3以適應(yīng)AlexNet模型的輸入要求。網(wǎng)絡(luò)的訓(xùn)練采用隨機(jī)梯度下降（stochasticgradientdescent）算法。算法的hyper-parameters定義為momentum=0.9，weightdecay=0.0005，initiallearningrate（基準(zhǔn)）=0.001。learningratedecay=0.1,decayepochs=10,batchsize=128。由于最后一個(gè)FullyConnectedLayer完全重新訓(xùn)練而不保留AlexNet的權(quán)值，因此其initiallearningrate的倍數(shù)增加到4，為0.004而不是0.001。訓(xùn)練終止的策略為EarlyStopping，即驗(yàn)證集上的識(shí)別率不再提高即停止訓(xùn)練。訓(xùn)練好的網(wǎng)絡(luò)模型的最后一個(gè)Poolinglayer的輸出即作為面部情緒識(shí)別的圖像特征。

2.2.2音頻特征提取

我們首先使用Matlab工具箱從EmotiW2016影片片段中提取音頻信號(hào)，并將信號(hào)轉(zhuǎn)換為16kHz單聲道。然后，我們使用OpenSMILE工具包[35]來逐幀提取eGeMAPS音頻特征。在實(shí)驗(yàn)中音頻幀的長度定義為0.04s。

2.2.3LSTM-RNN的結(jié)構(gòu)

我們評(píng)估了六種不同的BLSTM-RNN結(jié)構(gòu)以用于音頻情緒識(shí)別。六種LSTM-RNN的結(jié)構(gòu)如表2所示。

實(shí)驗(yàn)中音頻LSTM的實(shí)現(xiàn)和訓(xùn)練使用的是CURRENNT工具包[36]。訓(xùn)練網(wǎng)絡(luò)的learningrate為1e-5，batchsize為10個(gè)句子（每個(gè)句子對應(yīng)于從一個(gè)影片剪輯中提取的音頻特征序列）。同樣LSTM訓(xùn)練的終止策略也是earlystopping?；陔S機(jī)初始化的網(wǎng)絡(luò)權(quán)值，我們對六種LSTM結(jié)構(gòu)中的每一種進(jìn)行10次訓(xùn)練。LSTM在驗(yàn)證數(shù)據(jù)集上的識(shí)別率在31-35％之間，其中最好的模型基于結(jié)構(gòu)4。我們將其作為音頻情緒識(shí)別的最終模型。

3.系統(tǒng)評(píng)估

為了測試評(píng)估CNN圖像特征的表現(xiàn)。我們使用三種分類器（PLS,SVM和LogisticRegression）分別在EmotiW2014和2016兩個(gè)數(shù)據(jù)集的驗(yàn)證集上進(jìn)行了測試。測試結(jié)果如表5和表6所示。

結(jié)果表明基于CNN和傳統(tǒng)手工特征PLS均表現(xiàn)出優(yōu)于SVM和LogisticRegression分類器的分類性能。我們接著評(píng)估了不同方法的組合，如表7所示?；趯?shí)驗(yàn)結(jié)果，我們在最終系統(tǒng)中選擇了DenseSIFT圖像特征和CNN圖像特征來用于基于人臉視頻的情緒識(shí)別。在音頻情緒識(shí)別方面我們將LSTM方法與傳統(tǒng)方法（EmotiW2014Baseline）進(jìn)行了比較，結(jié)果如圖4所示。實(shí)驗(yàn)結(jié)果表明LSTM方法的準(zhǔn)確度比傳統(tǒng)方法的識(shí)別準(zhǔn)確率高出了8％。

最后一個(gè)實(shí)驗(yàn)是視頻和音頻系統(tǒng)的融合。我們測試了三種融合方案：第一種是其中情緒類別的融合均使用相同的權(quán)重;第二和第三種是對于每個(gè)情緒類別的子系統(tǒng)賦予不同的權(quán)重。在驗(yàn)證數(shù)據(jù)集上的結(jié)果表明基于LSTM的音頻識(shí)別方法在進(jìn)行恐懼和悲傷情緒分類時(shí)表現(xiàn)得很好（優(yōu)于視頻方法），但對厭惡和驚訝兩種情緒的分類效果不佳。實(shí)驗(yàn)結(jié)果同時(shí)顯示使用不同的權(quán)重進(jìn)行系統(tǒng)融合能更好地結(jié)合子系統(tǒng)的相對優(yōu)勢和弱點(diǎn)，達(dá)到比統(tǒng)一權(quán)值更好的融合效果。表3列出了實(shí)驗(yàn)所測試的三種融合方案。融合方案3在驗(yàn)證數(shù)據(jù)集以及最終測試數(shù)據(jù)集上取得了最佳結(jié)果，在測試集上的識(shí)別準(zhǔn)確率達(dá)到了53.9％。

實(shí)驗(yàn)結(jié)果表明：一、本文所提出的方法在識(shí)別憤怒和快樂兩種情緒時(shí)效果最好，分別獲得了80％和75％的準(zhǔn)確率。這兩個(gè)識(shí)別結(jié)果與EmotiW2014和2015年的第一名的方法的表現(xiàn)持平。二、與14和15年的第一名方法相比，基于LSTM的音頻情緒識(shí)別方法在恐懼情緒的識(shí)別準(zhǔn)確率方面取得了10％的提升。三、與2014第一名和2015第一名方法相比，本文的方法對于無情緒（Neutral）狀態(tài)的識(shí)別上存在著過擬合的問題。具體表現(xiàn)在無情緒狀態(tài)的識(shí)別在開發(fā)數(shù)據(jù)集上取得了約70％的準(zhǔn)確率，與兩種第一名方法持平，但是但在測試數(shù)據(jù)集上較差，識(shí)別準(zhǔn)確率下降了約7％。

4.總結(jié)

本文提出了一種基于視音頻的自然情景下的情緒識(shí)別方法，該方法只利用了少量的樣本數(shù)據(jù)來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)確能夠達(dá)到目前最先進(jìn)的識(shí)別準(zhǔn)確率。本文提出的方法在EmotiW2016測試集上達(dá)到了53.9％的識(shí)別準(zhǔn)確率，相比比基線的40.47％[41]高出了13.5%。測試結(jié)果表明：一、當(dāng)可用于訓(xùn)練的臉部視頻情緒識(shí)別數(shù)據(jù)量較少時(shí)，基于DCNN權(quán)值微調(diào)的遷移學(xué)習(xí)策略是一種有效的方法；二、對于音頻情緒識(shí)別，直接使用EmotiW2016所提供的少量的訓(xùn)練數(shù)據(jù)和LSTM-RNN模型就可以得到相比傳統(tǒng)方法更好的識(shí)別效果。我們今后的工作將分兩個(gè)方向進(jìn)行。首先是通過考察不同的預(yù)先訓(xùn)練的DCNN和不同微調(diào)策略來獲取更有效的為臉部情緒識(shí)別特征。其次是對基于音頻的情緒識(shí)別進(jìn)行更深入的研究，通過設(shè)計(jì)更有效LSTM-RNN模型來提高音頻識(shí)別效果。

5.參考文獻(xiàn)

Valstar,MichelF.,etal."Fera2015-secondfacialexpressionrecognitionandanalysischallenge."AutomaticFaceandGestureRecognition(FG),201511thIEEEInternationalConferenceandWorkshopson.Vol.6.IEEE,2015.

Valstar,Michel,etal."AVEC2016-Depression,Mood,andEmotionRecognitionWorkshopandChallenge."arXivpreprintarXiv:1605.01600(2016).

Dhall,Abhinav,etal."Videoandimagebasedemotionrecognitionchallengesinthewild:Emotiw2015."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Valstar,MichelF.,etal."Thefirstfacialexpressionrecognitionandanalysischallenge."AutomaticFace&GestureRecognitionandWorkshops(FG2011),2011IEEEInternationalConferenceon.IEEE,2011.

Almaev,TimurR.,andMichelF.Valstar."Localgaborbinarypatternsfromthreeorthogonalplanesforautomaticfacialexpressionrecognition."AffectiveComputingandIntelligentInteraction(ACII),2013HumaineAssociationConferenceon.IEEE,2013.

Pietikainen,Matti,etal.Computervisionusinglocalbinarypatterns.Vol.40.SpringerScience&BusinessMedia,2011.

A.Dhall,A.Asthana,R.Goecke,andT.Gedeon.Emotionrecognitionusingphogandlpqfeatures.InFG.IEEE,2011.

Liu,Mengyi,etal."Combiningmultiplekernelmethodsonriemannianmanifoldforemotionrecognitioninthewild."Proceedingsofthe16thInternationalConferenceonMultimodalInteraction.ACM,2014.

D.G.Lowe.Distinctiveimagefeaturesfromscale-invariantkeypoints.Internationaljournalofcomputervision,60(2):91{110),2004.

N.DalalandB.Triggs.Histogramsoforientedgradientsforhumandetection.InCVPR.IEEE,2005.

J.HammandD.D.Lee.Grassmanndiscriminantanalysis:aunifyingviewonsubspace-basedlearning.InICML.ACM,2008.

R.Wang,H.Guo,L.S.Davis,andQ.Dai.Covariancediscriminativelearning:Anaturalandefficientapproachtoimagesetclassfication.InCVPR.IEEE,2012.

R.Vemulapalli,J.K.Pillai,andR.Chellappa.Kernellearningforextrinsicclassficationofmanifoldfeatures.InCVPR.IEEE,2013.

P.Li,Q.Wang,andL.Zhang.Anovelearthmover'sdistancemethodologyforimagematchingwithgaussianmixturemodels.InICCV.IEEE,2013.

Yao,Anbang,etal."Capturingau-awarefacialfeaturesandtheirlatentrelationsforemotionrecognitioninthewild."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Hassner,Tal,etal."Effectivefacefrontalizationinunconstrainedimages."ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015.

Zeiler,MatthewD.,etal."Deconvolutionalnetworks."ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010.

Zhang,Xiao,etal."Findingcelebritiesinbillionsofwebimages."IEEETransactionsonMultimedia14.4(2012):995-1007.

Ng,Hong-Wei,etal."Deeplearningforemotionrecognitiononsmalldatasetsusingtransferlearning."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Goodfellow,IanJ.,etal."Challengesinrepresentationlearning:Areportonthreemachinelearningcontests."InternationalConferenceonNeuralInformationProcessing.SpringerBerlinHeidelberg,2013.

EbrahimiKahou,Samira,etal."Recurrentneuralnetworksforemotionrecognitioninvideo."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

He,Lang,etal."Multimodalaffectivedimensionpredictionusingdeepbidirectionallongshort-termmemoryrecurrentneuralnetworks."Proceedingsofthe5thInternationalWorkshoponAudio/VisualEmotionChallenge.ACM,2015.

Anagnostopoulos,Christos-Nikolaos,TheodorosIliou,andIoannisGiannoukos."Featuresandclassifiersforemotionrecognitionfromspeech:asurveyfrom2000to2011."ArtificialIntelligenceReview43.2(2015):155-177.

Connor,JeromeT.,R.DouglasMartin,andLesE.Atlas."Recurrentneuralnetworksandrobusttimeseriesprediction."IEEEtransactionsonneuralnetworks5.2(1994):240-254.

Pascanu,Razvan,TomasMikolov,andYoshuaBengio."Onthedifficultyoftrainingrecurrentneuralnetworks."ICML(3)28(2013):1310-1318.

Hochreiter,Sepp,andJürgenSchmidhuber."Longshort-termmemory."Neuralcomputation9.8(1997):1735-1780.

Senior,Andrew,HasimSak,andIzhakShafran."ContextdependentphonemodelsforLSTMRNNacousticmodelling."2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2015.

Zazo,Ruben,etal."LanguageIdentificationinShortUtterancesUsingLongShort-TermMemory(LSTM)RecurrentNeuralNetworks."PloSone11.1(2016):e0146917.

Khorrami,Pooya,etal."HowDeepNeuralNetworksCanImproveEmotionRecognitiononVideoData."arXivpreprintarXiv:1602.07377(2016).

H.Wold.Partialleastsquares.Encyclopediaofstatisticalsciences,1985.

Eyben,Florian,etal."TheGenevaminimalisticacousticparameterset(GeMAPS)forvoiceresearchandaffectivecomputing."IEEETransactionsonAffectiveComputing7.2(2016):190-202.

A.Dhall,R.Goecke,J.Joshi,K.Sikka,andT.Gedeon.Emotionrecognitioninthewildchallenge2014:Baseline,dataandprotocol.InACMICMI.ACM,2014.

F.Ringeval,S.Amiriparian,F.Eyben,K.Scherer,andB.Schuller.Emotionrecognitioninthewild:Incorporatingvoiceandlipactivityinmultimodaldecision-levelfusion.InProc.ofEmotiW,ICMI,pages473{480,Istanbul,Turkey,November2014.

D.Bone,C.-C.Lee,andS.S.Narayanan.Robustunsupervisedarousalrating:Arule-basedframeworkwithknowledge-inspiredvocalfeatures.IEEETransactionsonAffectiveComputing,5(2):201{213,April-June2014.

F.Eyben,F.Weninger,F.Grob,andB.Schuller.RecentdevelopmentsinopenSMILE,theMunichopen-sourcemultimediafeatureextractor.InProc.ofACMMM,pages835{838,Barcelona,Spain,October2013.

Weninger,Felix,JohannesBergmann,andBjornSchuller."IntroducingCURRENNT–theMunichopen-sourceCUDARecurREntneuralnetworktoolkit."JournalofMachineLearningResearch16.3(2015):547-551.

Kim,Bo-Kyeong,etal."Hierarchicalcommitteeofdeepcnnswithexponentially-weighteddecisionfusionforstaticfacialexpressionrecognition."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Jia,Yangqing,etal."Caffe:Convolutionalarchitectureforfastfeatureembedding."Proceedingsofthe22ndACMinternationalconferenceonMultimedia.ACM,2014.

Krizhevsky,Alex,IlyaSutskever,andGeoffreyE.Hinton."Imagenetclassificationwithdeepconvolutionalneuralnetworks."Advancesinneuralinformationprocessingsystems.2012.

AbhinavDhall,RolandGoecke,SimonLucey,andTomGedeon.CollectingLarge,RichlyAnnotatedFacial-ExpressionDatabasesfromMovies.IEEEMultiMedia,19(3):34{41,2012.

AbhinavDhall,RolandGoecke,JyotiJoshi,JesseHoey,andTomGedeon,EmotiW2016:VideoandGroup-levelEmotionRecognitionChallenges,ACMICMI2016.

深度神經(jīng)網(wǎng)絡(luò)，視音頻訓(xùn)練，自然情景下的情緒識(shí)別

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明：

凡本網(wǎng)注明[來源：中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題，請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系，否則視為放棄相關(guān)權(quán)利。