基于深度神經(jīng)網(wǎng)絡(luò)和少量視音頻訓(xùn)練樣本的自然情景下的情緒識(shí)別

文:作者較多,參考正文詳細(xì)列出2018年第三期

文:WanDing1,MingyuXu2,DongyanHuang3,WeisiLin4,MinghuiDong3,XinguoYu1,HaizhouLi3,5

1.CentralChinaNormalUniversity,China

2.UniversityofBritishColumbia,Canada

3.ASTAR,Singapore

4.NanyangTechnologicalUniversity,Singapore

5.ECEDepartment,NationalUniversityofSingapore,Singapore

    摘要

    本文介紹了團(tuán)隊(duì)在2016年自然情景下音視頻情緒識(shí)別挑戰(zhàn)(EmotionRecognitionintheWildChallenge2016)的參賽系統(tǒng)。EmotiW2016挑戰(zhàn)的任務(wù)是根據(jù)視頻片段中人物的表情動(dòng)作和聲音將視頻按七種基本情緒(無情緒、憤怒、悲傷、快樂、驚奇、恐懼和厭惡)進(jìn)行分類。EmotiW2016挑戰(zhàn)任務(wù)的訓(xùn)練和測試數(shù)據(jù)來源于電影和電視真人秀節(jié)目的片段。本文提出的解決方案首先基于視頻(臉部表情)和音頻兩個(gè)信息通道來分別進(jìn)行情緒識(shí)別,然后將臉部識(shí)別和聲音識(shí)別子系統(tǒng)的預(yù)測結(jié)果進(jìn)行融合(ScoreLevelFusion)。

    視頻情緒識(shí)別首先提取臉部表情圖像的卷積神經(jīng)網(wǎng)絡(luò)(CNN)特征。圖像特征提取所使用的深度卷積神經(jīng)網(wǎng)絡(luò)以預(yù)先訓(xùn)練好的ImageNet神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),然后在FER2013圖像數(shù)據(jù)集上針對臉部情緒識(shí)別任務(wù)進(jìn)行微調(diào)(FineTuning);然后基于CNN特征和三種圖像集合模型(ImageSetModel)提取視頻特征;最后使用不同的核分類器(SVM,PLS等)來對臉部視頻進(jìn)行情緒分類。音頻情感識(shí)別則沒有利用外部數(shù)據(jù)集而是直接使用挑戰(zhàn)數(shù)據(jù)集來訓(xùn)練長短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Long-ShortTermMemoryRecurrentNeuralNetwork,LSTM-RNN)。實(shí)驗(yàn)結(jié)果表明文本提出的視頻識(shí)別子系統(tǒng)、音頻識(shí)別子系統(tǒng)以及他們的融合在準(zhǔn)確率方面均能達(dá)到當(dāng)前最先進(jìn)的性能。該系統(tǒng)在EmotiW2016挑戰(zhàn)的測試數(shù)據(jù)集上的識(shí)別準(zhǔn)確率為53.9%,比基準(zhǔn)線(40.47%)高出13.5%。

    引言

    作為人機(jī)情感交互的關(guān)鍵技術(shù)之一,基于音視頻信號(hào)的情緒識(shí)別這一課題的研究已活躍了數(shù)十年。早期的音視頻情緒識(shí)別研究主要集中在實(shí)驗(yàn)室擺拍條件下的情緒識(shí)別。近年來隨著技術(shù)的發(fā)展,越來越多的研究者開始把注意力轉(zhuǎn)向了自然情景下的情緒識(shí)別。諸如面部表情識(shí)別和分析挑戰(zhàn)(FacialExpressionRecognitionandAnalysisChallenge,F(xiàn)ERA)[1]、音頻/視覺情緒挑戰(zhàn)(Audio/VisualEmotionChallenge,AVEC)[2]以及自然情境下的情感識(shí)別(EmotionRecognitionintheWildChallenge,EmotiW)[3]已經(jīng)成為人們研究和測試其自然情景下情緒識(shí)別方法的基準(zhǔn)(Benchmark)。

    對于情緒識(shí)別,臉部表情和聲音是最主要的兩個(gè)信息通道。在所有的情緒表達(dá)信息中,臉部和聲音部分占了近93%[4]?;跁r(shí)間維度特征提取方法的不同,臉部情緒識(shí)別可以分為三類。第一類基于人工設(shè)計(jì)的時(shí)空特征(諸如LocalBinaryPatternsfromThreeOrthogonalPlanes(LBP-TOP)和LocalPhaseQuantizationfromThreeOrthogonalPlanes(LPQ-TOP)[5-7]。

    第一類方法將視頻數(shù)據(jù)視為三維像素體序列,沿著像素體的每一面(空間和時(shí)空維度)進(jìn)行紋理特征的提取。第二類方法將視頻視為一組圖像,基于圖像集合的建模方法(ImageSetModeling)來提取視頻特征并用于情緒識(shí)別?;趫D像集的方法將視頻幀視為在不同條件下(姿態(tài),照明等)捕獲的同一對象的圖像。第三類方法利用序列模型(SequenceModel),如遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)來捕獲視頻所包含的的情緒識(shí)別的時(shí)間維度特征。與基于時(shí)空特征的方法相比,基于圖像集的方法和RNN方法對面部表情在時(shí)間維度的變化更加魯棒。RNN模型一般含有大量的自由變量。在訓(xùn)練視頻樣本較少的情況下基于圖像集的方法相比RNN方法可以獲得更好的識(shí)別結(jié)果[8-9,37]。在視頻幀的圖像特征提取方面,一種方式是使用人工設(shè)計(jì)的特征,如Liu等人[8]將DenseSIFT[9],HistogramofOrientedGradients(HOG)[10]等傳統(tǒng)特征與不同的圖像集建模方法[11-14]進(jìn)行結(jié)合以用于臉部視頻的情緒識(shí)別。[8]所展示的實(shí)驗(yàn)結(jié)果還表明不同的傳統(tǒng)圖像特征對臉部情緒識(shí)別還具有互補(bǔ)作用。

    Yao等人[15]定義了一種基于臉部圖像局部區(qū)域之間的差異的情緒識(shí)別特征。他們首先通過臉部正面化(frontalization)技術(shù)來配準(zhǔn)局部區(qū)域[16],然后在局部區(qū)域上提取LBP特征,最后使用特征選擇來檢測最具差異性的區(qū)域并將這些區(qū)域的LBP特征值的差值作為人臉圖像的情緒識(shí)別特征。他們的方法在EmotiW2015中的靜態(tài)和視音頻情緒識(shí)別挑戰(zhàn)上均取得了良好的效果。除了人工設(shè)計(jì)圖像特征之外,圖像特征提取的另一種方法是使用深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetwork,DCNN)。

    這里的“深”表示網(wǎng)絡(luò)具有三個(gè)以上的卷積層。DCNN是一種端到端的圖像分類模型,其卷積層的輸出可以作為圖像特征且具有一定的通用性[17]。訓(xùn)練有效的DCNN通常需要大量的數(shù)據(jù)樣本(如10萬張臉部表情圖像);然而目前公開的臉部情緒識(shí)別的數(shù)據(jù)集通常很?。ㄈ鏔ER2013只有3萬張圖像)。為了解決這一問題,Liu等人[8]使用人臉識(shí)別數(shù)據(jù)集CFW[18](約17萬張圖像)來訓(xùn)練DCNN。實(shí)驗(yàn)表明學(xué)習(xí)到的DCNN特征比傳統(tǒng)的手工特征(Dense-SIFT和HOG)效果更好。Ng等人[19]利用遷移學(xué)習(xí)策略,將預(yù)先訓(xùn)練好的通用圖像識(shí)別網(wǎng)絡(luò)作為情緒識(shí)別網(wǎng)絡(luò)的初始化,再FER-2013數(shù)據(jù)集[20]對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練(權(quán)值的微調(diào))。經(jīng)過微調(diào)的DCNN在EmotiW2015靜態(tài)面部表情識(shí)別子挑戰(zhàn)中取得了不錯(cuò)的成績。Kim等人[37]基于決策融合方法,直接使用小數(shù)據(jù)集訓(xùn)練多個(gè)DCNN并將DCNN對與臉部圖片的情緒預(yù)測結(jié)果進(jìn)行均值融合。不過多個(gè)DCNN的特征融合方法仍有待研究。

    在音頻情緒識(shí)別方面,經(jīng)驗(yàn)表明情緒識(shí)別音頻特征與臉部視覺特征互補(bǔ)。將基于面部和基于音頻的情緒識(shí)別結(jié)果進(jìn)行融合可以取得比單一通道更好的結(jié)果[8-9,21-22]。近年來LSTM-RNN[26]在語音情感識(shí)別和其他聲學(xué)建模任務(wù)中得到了普遍地使用[2,22-23,27-29]。與傳統(tǒng)的隱馬爾可夫模型(HMM)[23]和標(biāo)準(zhǔn)遞歸神經(jīng)網(wǎng)絡(luò)(StandardRNN)等模型相比,LSTM-RNN可以提取較長時(shí)間間隔(例如>100個(gè)時(shí)間步長)的關(guān)聯(lián)特征而不會(huì)遇到梯度消失等問題[25]。

    本文所介紹的系統(tǒng)結(jié)合了不同的方法。臉部視頻情緒識(shí)別基于DCNN特征和圖像集合建模,音頻情緒識(shí)別基于LSTM-RNN模型。本文的主要工作有兩方面。第一個(gè)方面是DCNN圖像特征的提取采用了基于權(quán)值微調(diào)的遷移學(xué)習(xí)方法,基于少量樣本訓(xùn)練得到的臉部圖像情緒識(shí)別DCNN特征的表現(xiàn)超過臉部識(shí)別大數(shù)據(jù)集訓(xùn)練所得到的DCNN特征[19]。第二個(gè)方面是我們所訓(xùn)練使用的音頻情緒識(shí)別LSTM-RNN模型,只使用了少量的訓(xùn)練樣本(EmotiW2016所提供的773個(gè)音頻句子),但是在識(shí)別率方面仍然超出基準(zhǔn)方法7%。方法的細(xì)節(jié)將在后面章節(jié)中具體介紹。

    1.提出的方法

    1.1基于面部視頻的情緒識(shí)別

    本文所提出的面部視頻情緒識(shí)別方法由由三個(gè)步驟組成。第一步是對視頻每一幀的臉部圖像提取DCNN圖像特征。第二步是基于圖像集建模方法提取動(dòng)態(tài)特征。最后一步是分類。由于基于圖像集的視頻特征通常位于非歐幾里德流形上[13],因此在特征提取后使用核函數(shù)將它們映射到歐幾里德空間進(jìn)行最終分類。在我們所使用的方法中,第二步和第三步直接應(yīng)用了文獻(xiàn)[8]所提供的開源代碼進(jìn)行動(dòng)態(tài)特征提取和分類。

    1.1.1DeepCNN圖像特征

    卷積神經(jīng)網(wǎng)絡(luò)借鑒了動(dòng)物視覺皮層中神經(jīng)元的組織結(jié)構(gòu)。網(wǎng)絡(luò)結(jié)構(gòu)通過局部連通性(LocalConnectivity)、權(quán)值共享(WeightSharing)和池化(Pooling)等技術(shù)來達(dá)到諸如減少網(wǎng)絡(luò)復(fù)雜度和特征的平移不變性等效果。DeepCNN一般包含多層卷積層,卷積層的輸出可以作為輸入圖像的特征描述。假設(shè)輸入圖像是IW,H,C,其中W表示寬度,H表示高度,C表示通道的數(shù)量(一般輸入圖像為RGB通道)。對于I中的一個(gè)局部區(qū)域Lw,h,C,

(1)

其中Kw,h,C是與L大小相同的核(kernel);*表示卷積運(yùn)算;b表示偏差變量(bias);σ表示激活函數(shù)(activationfunction),在實(shí)踐中通常是整流線性單元(RELU);oL表示L區(qū)域的特征值。通過將核K與I中的每個(gè)局部區(qū)域進(jìn)行卷積計(jì)算,我們可以得到特征圖M,然后將其作為圖像特征向量用于進(jìn)一步處理。

    1.1.2臉部視頻的動(dòng)態(tài)特征

    給定d維圖像特征f,可將視頻視為一組圖像特征向量F=[f1,f2...fn],其中fiÎRd是視頻第i幀對應(yīng)的特征向量。三種圖像集合模型被用于從F中提取視頻(圖像集合)特征,它們分別是線性子空間(LinearSubspace)[14],協(xié)方差矩陣[13]和多維高斯分布[15]。線性子空間模型所對應(yīng)的特征向量P通過以下方式計(jì)算:

(2)

其中P=[p1,p2...pr],pj(jÎ[1,r])表示主特征向量(eigenvector)。

協(xié)方差矩陣C通過以下方式找到:

(3)

表示圖像特征的平均值。假設(shè)F中的特征向量遵循d維高斯分布N(μ,∑),μ分別表示均值和協(xié)方差。高斯分布的特征通過以下方式計(jì)算定義:

(4)

(5)

    1.1.3核函數(shù)和分類器

    在核函數(shù)方面,我們選擇了多項(xiàng)式(Polynomial)和RBF(Radialbasisfunction)兩種核函數(shù)。在分類器方面我們采用了PLS(PartialLeastSquaresRegression)[30]。Liu等人在EmotiW2014數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果[8]顯示PLS在面部情緒識(shí)別方面優(yōu)于支持向量機(jī)(SVM)和LogisticRegression;我們在EmotiW2016的數(shù)據(jù)集上也觀察到相同的趨勢。給定視頻特征變量X和0-1標(biāo)簽Y(七種基本情緒識(shí)別可以視作七個(gè)二分類任務(wù)),PLS分類器將它們分解為

其中Ux和Uy是projectedX-scores和Y-scores,Vx和Vy分別表示loadings,rx和ry表示residuals。PLS通過找到在其列向量之間具有最大協(xié)方差的Ux和Uy來確定X和Y之間的回歸系數(shù)。假設(shè)UX和UY是最大協(xié)方差投影,則回歸系數(shù)β由下式給出:

給定一個(gè)視頻特征向量x,它對應(yīng)的分類預(yù)測為.

    1.2基于音頻的情緒識(shí)別

    基于音頻的情緒識(shí)別方法首先逐幀提取聲學(xué)特征,然后通過訓(xùn)練LSTM-RNN(LongShort-TermMemoryRecurrentNeuralNetwork)進(jìn)行時(shí)間維度特征的提取和情緒分類。假設(shè)一個(gè)影片剪輯所對應(yīng)的音頻特征序列是F=[f1,f2...fn],所對應(yīng)的情緒分類標(biāo)簽是c。在訓(xùn)練LSTM-RNN之前我們逐幀定義情緒標(biāo)簽C=[c1,c2...cn],其中ci=cforifrom1ton。對應(yīng)的LSTM所輸出的也是逐幀的預(yù)測結(jié)果。我們?nèi)≈饚A(yù)測結(jié)果的平均值作為視頻剪輯的情緒識(shí)別的最終預(yù)測結(jié)果。

    1.2.1音頻特征

    方法采用extendedversionofGenevaMinimalisticAcousticParameterSet(eGeMAPS)[31]音頻特征集來進(jìn)行情緒識(shí)別。eGeMAPS中的音頻特征集基于專家知識(shí)設(shè)計(jì),與傳統(tǒng)的高維特征集[32]相比eGeMAPS僅有88維特征,但是對語音情感建模問題表現(xiàn)出了的更高的魯棒性[33-34]。eGeMAPS的acousticlow-leveldescriptors(LLD)涵蓋了spectral、cepstral、prosodic以及voicequality等方面的信息。除了LLD之外,eGeMAPS還包含arithmeticmean和coefficientofvariation等統(tǒng)計(jì)特征。

    1.2.2LSTM-RNN

    相比sigmoid和tanh等傳統(tǒng)的激活函數(shù),LSTM-RNN使用一種特殊的激活函數(shù)稱為MemoryBlocks。LSTMMemoryBlocks的結(jié)構(gòu)如圖2所示。對于一個(gè)網(wǎng)絡(luò)層中MemoryBlock而言它在t時(shí)刻的輸入是前一網(wǎng)絡(luò)層在t時(shí)刻的輸出xt,,和當(dāng)前Block在t-1時(shí)刻的輸出ht-1。MemoryBlock的結(jié)構(gòu)由四個(gè)主要部分組成。這四個(gè)主要部分是:inputgate,memorycell,forgetgate以及outputgate。Memorycell結(jié)構(gòu)具有一個(gè)權(quán)值為1.0的自連接。Memorycell結(jié)構(gòu)確保在排除外部輸入的情況下,MemoryCell的狀態(tài)保持恒定。Inputgate允許(或屏蔽)輸入信號(hào)對memorycell的狀態(tài)或者進(jìn)行改變。Outputgate允許(或屏蔽)memorycell的狀態(tài)對block的輸出進(jìn)行改變。Forgetgate可以調(diào)整memorycell的自回復(fù)連接,使cell根據(jù)需要選擇保持或清除其之前的狀態(tài)。MemoryBlock的計(jì)算過程如下所示:

其中xt和ht-1表示輸入;W,U表示V是權(quán)值矩陣;b表示偏差向量,σ表示sigmoid函數(shù);

其中xt和ht-1表示輸入;W,U表示V是權(quán)值矩陣;b表示偏差向量,σ表示sigmoid函數(shù);

表示t時(shí)刻cell的狀態(tài)候選;f,c和o分別表示InputGate,ForgetGate,MemoryCell和OutputGate的輸出。h表示block在t時(shí)刻的最終輸出。

    1.3系統(tǒng)的融合

    基于面部視頻和音頻子系統(tǒng)的預(yù)測結(jié)果我們進(jìn)一步進(jìn)行了融合。融合引入了一個(gè)加權(quán)向量w=[λ1,λ2…λc]。其中c表示情緒類別的數(shù)量。最終預(yù)測結(jié)果S的計(jì)算方法為

其中SAandSV分別表示音頻和視頻子系統(tǒng)的情緒識(shí)別預(yù)測結(jié)果。

    2.實(shí)驗(yàn)

    2.1EmotiW2016數(shù)據(jù)

    基于視音頻的情緒識(shí)別是EmotiW2016所設(shè)立的子挑戰(zhàn)之一。數(shù)據(jù)集的樣本為多媒體視頻片段。樣本所對應(yīng)的情緒狀態(tài)通過[40]中所定義的半自動(dòng)方法進(jìn)行標(biāo)注?;谝曇纛l的情緒識(shí)別的任務(wù)是設(shè)計(jì)算法自動(dòng)對視頻片段按七種基本情緒狀態(tài)(憤怒(Ang)、厭惡(Dis)、恐懼(Fea)、快樂(Hap)、中立(Neu)、悲傷(Sad)、驚喜(Sur))進(jìn)行分類。EmotiW2016是EmotiW2013-15的延續(xù),主要變化在于除了從電影中提取的視頻片段之外,還將真人秀節(jié)目的視頻片段引入到測試集中,以測試在基于電影數(shù)據(jù)所訓(xùn)練的情緒識(shí)別方法的通用性。子挑戰(zhàn)的數(shù)據(jù)集包含1739個(gè)視頻片段:其中訓(xùn)練集(Train)的樣本數(shù)為773個(gè),驗(yàn)證集(Validation)的樣本數(shù)為373個(gè),測試集(Test)的樣本數(shù)為593個(gè)。挑戰(zhàn)的最終結(jié)果以系統(tǒng)在測試集上的準(zhǔn)確率為準(zhǔn)。

    2.2深度神經(jīng)網(wǎng)絡(luò)的實(shí)現(xiàn)

    2.2.1CNN圖像特征提取

    我們使用Caffe工具包[38],和FER2013數(shù)據(jù)集對預(yù)先訓(xùn)練的AlexNetDeepCNN模型[39]進(jìn)行微調(diào)。預(yù)訓(xùn)練的AlexNet模型和FER2013數(shù)據(jù)集都是公開的。在使用FER2013數(shù)據(jù)集(~28000張臉部圖像)時(shí),我們首先將FER2013默認(rèn)的48x48x1圖像尺寸縮放至256x256x3以適應(yīng)AlexNet模型的輸入要求。網(wǎng)絡(luò)的訓(xùn)練采用隨機(jī)梯度下降(stochasticgradientdescent)算法。算法的hyper-parameters定義為momentum=0.9,weightdecay=0.0005,initiallearningrate(基準(zhǔn))=0.001。learningratedecay=0.1,decayepochs=10,batchsize=128。由于最后一個(gè)FullyConnectedLayer完全重新訓(xùn)練而不保留AlexNet的權(quán)值,因此其initiallearningrate的倍數(shù)增加到4,為0.004而不是0.001。訓(xùn)練終止的策略為EarlyStopping,即驗(yàn)證集上的識(shí)別率不再提高即停止訓(xùn)練。訓(xùn)練好的網(wǎng)絡(luò)模型的最后一個(gè)Poolinglayer的輸出即作為面部情緒識(shí)別的圖像特征。

    2.2.2音頻特征提取

    我們首先使用Matlab工具箱從EmotiW2016影片片段中提取音頻信號(hào),并將信號(hào)轉(zhuǎn)換為16kHz單聲道。然后,我們使用OpenSMILE工具包[35]來逐幀提取eGeMAPS音頻特征。在實(shí)驗(yàn)中音頻幀的長度定義為0.04s。

    2.2.3LSTM-RNN的結(jié)構(gòu)

    我們評(píng)估了六種不同的BLSTM-RNN結(jié)構(gòu)以用于音頻情緒識(shí)別。六種LSTM-RNN的結(jié)構(gòu)如表2所示。

   實(shí)驗(yàn)中音頻LSTM的實(shí)現(xiàn)和訓(xùn)練使用的是CURRENNT工具包[36]。訓(xùn)練網(wǎng)絡(luò)的learningrate為1e-5,batchsize為10個(gè)句子(每個(gè)句子對應(yīng)于從一個(gè)影片剪輯中提取的音頻特征序列)。同樣LSTM訓(xùn)練的終止策略也是earlystopping?;陔S機(jī)初始化的網(wǎng)絡(luò)權(quán)值,我們對六種LSTM結(jié)構(gòu)中的每一種進(jìn)行10次訓(xùn)練。LSTM在驗(yàn)證數(shù)據(jù)集上的識(shí)別率在31-35%之間,其中最好的模型基于結(jié)構(gòu)4。我們將其作為音頻情緒識(shí)別的最終模型。

    3.系統(tǒng)評(píng)估

    為了測試評(píng)估CNN圖像特征的表現(xiàn)。我們使用三種分類器(PLS,SVM和LogisticRegression)分別在EmotiW2014和2016兩個(gè)數(shù)據(jù)集的驗(yàn)證集上進(jìn)行了測試。測試結(jié)果如表5和表6所示。

    結(jié)果表明基于CNN和傳統(tǒng)手工特征PLS均表現(xiàn)出優(yōu)于SVM和LogisticRegression分類器的分類性能。我們接著評(píng)估了不同方法的組合,如表7所示?;趯?shí)驗(yàn)結(jié)果,我們在最終系統(tǒng)中選擇了DenseSIFT圖像特征和CNN圖像特征來用于基于人臉視頻的情緒識(shí)別。在音頻情緒識(shí)別方面我們將LSTM方法與傳統(tǒng)方法(EmotiW2014Baseline)進(jìn)行了比較,結(jié)果如圖4所示。實(shí)驗(yàn)結(jié)果表明LSTM方法的準(zhǔn)確度比傳統(tǒng)方法的識(shí)別準(zhǔn)確率高出了8%。

    最后一個(gè)實(shí)驗(yàn)是視頻和音頻系統(tǒng)的融合。我們測試了三種融合方案:第一種是其中情緒類別的融合均使用相同的權(quán)重;第二和第三種是對于每個(gè)情緒類別的子系統(tǒng)賦予不同的權(quán)重。在驗(yàn)證數(shù)據(jù)集上的結(jié)果表明基于LSTM的音頻識(shí)別方法在進(jìn)行恐懼和悲傷情緒分類時(shí)表現(xiàn)得很好(優(yōu)于視頻方法),但對厭惡和驚訝兩種情緒的分類效果不佳。實(shí)驗(yàn)結(jié)果同時(shí)顯示使用不同的權(quán)重進(jìn)行系統(tǒng)融合能更好地結(jié)合子系統(tǒng)的相對優(yōu)勢和弱點(diǎn),達(dá)到比統(tǒng)一權(quán)值更好的融合效果。表3列出了實(shí)驗(yàn)所測試的三種融合方案。融合方案3在驗(yàn)證數(shù)據(jù)集以及最終測試數(shù)據(jù)集上取得了最佳結(jié)果,在測試集上的識(shí)別準(zhǔn)確率達(dá)到了53.9%。

    實(shí)驗(yàn)結(jié)果表明:一、本文所提出的方法在識(shí)別憤怒和快樂兩種情緒時(shí)效果最好,分別獲得了80%和75%的準(zhǔn)確率。這兩個(gè)識(shí)別結(jié)果與EmotiW2014和2015年的第一名的方法的表現(xiàn)持平。二、與14和15年的第一名方法相比,基于LSTM的音頻情緒識(shí)別方法在恐懼情緒的識(shí)別準(zhǔn)確率方面取得了10%的提升。三、與2014第一名和2015第一名方法相比,本文的方法對于無情緒(Neutral)狀態(tài)的識(shí)別上存在著過擬合的問題。具體表現(xiàn)在無情緒狀態(tài)的識(shí)別在開發(fā)數(shù)據(jù)集上取得了約70%的準(zhǔn)確率,與兩種第一名方法持平,但是但在測試數(shù)據(jù)集上較差,識(shí)別準(zhǔn)確率下降了約7%。

    4.總結(jié)

    本文提出了一種基于視音頻的自然情景下的情緒識(shí)別方法,該方法只利用了少量的樣本數(shù)據(jù)來訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)確能夠達(dá)到目前最先進(jìn)的識(shí)別準(zhǔn)確率。本文提出的方法在EmotiW2016測試集上達(dá)到了53.9%的識(shí)別準(zhǔn)確率,相比比基線的40.47%[41]高出了13.5%。測試結(jié)果表明:一、當(dāng)可用于訓(xùn)練的臉部視頻情緒識(shí)別數(shù)據(jù)量較少時(shí),基于DCNN權(quán)值微調(diào)的遷移學(xué)習(xí)策略是一種有效的方法;二、對于音頻情緒識(shí)別,直接使用EmotiW2016所提供的少量的訓(xùn)練數(shù)據(jù)和LSTM-RNN模型就可以得到相比傳統(tǒng)方法更好的識(shí)別效果。我們今后的工作將分兩個(gè)方向進(jìn)行。首先是通過考察不同的預(yù)先訓(xùn)練的DCNN和不同微調(diào)策略來獲取更有效的為臉部情緒識(shí)別特征。其次是對基于音頻的情緒識(shí)別進(jìn)行更深入的研究,通過設(shè)計(jì)更有效LSTM-RNN模型來提高音頻識(shí)別效果。

    5.參考文獻(xiàn)

Valstar,MichelF.,etal."Fera2015-secondfacialexpressionrecognitionandanalysischallenge."AutomaticFaceandGestureRecognition(FG),201511thIEEEInternationalConferenceandWorkshopson.Vol.6.IEEE,2015.

Valstar,Michel,etal."AVEC2016-Depression,Mood,andEmotionRecognitionWorkshopandChallenge."arXivpreprintarXiv:1605.01600(2016).

Dhall,Abhinav,etal."Videoandimagebasedemotionrecognitionchallengesinthewild:Emotiw2015."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Valstar,MichelF.,etal."Thefirstfacialexpressionrecognitionandanalysischallenge."AutomaticFace&GestureRecognitionandWorkshops(FG2011),2011IEEEInternationalConferenceon.IEEE,2011.

Almaev,TimurR.,andMichelF.Valstar."Localgaborbinarypatternsfromthreeorthogonalplanesforautomaticfacialexpressionrecognition."AffectiveComputingandIntelligentInteraction(ACII),2013HumaineAssociationConferenceon.IEEE,2013.

Pietikainen,Matti,etal.Computervisionusinglocalbinarypatterns.Vol.40.SpringerScience&BusinessMedia,2011.

A.Dhall,A.Asthana,R.Goecke,andT.Gedeon.Emotionrecognitionusingphogandlpqfeatures.InFG.IEEE,2011.

Liu,Mengyi,etal."Combiningmultiplekernelmethodsonriemannianmanifoldforemotionrecognitioninthewild."Proceedingsofthe16thInternationalConferenceonMultimodalInteraction.ACM,2014.

D.G.Lowe.Distinctiveimagefeaturesfromscale-invariantkeypoints.Internationaljournalofcomputervision,60(2):91{110),2004.

N.DalalandB.Triggs.Histogramsoforientedgradientsforhumandetection.InCVPR.IEEE,2005.

J.HammandD.D.Lee.Grassmanndiscriminantanalysis:aunifyingviewonsubspace-basedlearning.InICML.ACM,2008.

R.Wang,H.Guo,L.S.Davis,andQ.Dai.Covariancediscriminativelearning:Anaturalandefficientapproachtoimagesetclassfication.InCVPR.IEEE,2012.

R.Vemulapalli,J.K.Pillai,andR.Chellappa.Kernellearningforextrinsicclassficationofmanifoldfeatures.InCVPR.IEEE,2013.

P.Li,Q.Wang,andL.Zhang.Anovelearthmover'sdistancemethodologyforimagematchingwithgaussianmixturemodels.InICCV.IEEE,2013.

Yao,Anbang,etal."Capturingau-awarefacialfeaturesandtheirlatentrelationsforemotionrecognitioninthewild."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Hassner,Tal,etal."Effectivefacefrontalizationinunconstrainedimages."ProceedingsoftheIEEEConferenceonComputerVisionandPatternRecognition.2015.

Zeiler,MatthewD.,etal."Deconvolutionalnetworks."ComputerVisionandPatternRecognition(CVPR),2010IEEEConferenceon.IEEE,2010.

Zhang,Xiao,etal."Findingcelebritiesinbillionsofwebimages."IEEETransactionsonMultimedia14.4(2012):995-1007.

Ng,Hong-Wei,etal."Deeplearningforemotionrecognitiononsmalldatasetsusingtransferlearning."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Goodfellow,IanJ.,etal."Challengesinrepresentationlearning:Areportonthreemachinelearningcontests."InternationalConferenceonNeuralInformationProcessing.SpringerBerlinHeidelberg,2013.

EbrahimiKahou,Samira,etal."Recurrentneuralnetworksforemotionrecognitioninvideo."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

He,Lang,etal."Multimodalaffectivedimensionpredictionusingdeepbidirectionallongshort-termmemoryrecurrentneuralnetworks."Proceedingsofthe5thInternationalWorkshoponAudio/VisualEmotionChallenge.ACM,2015.

Anagnostopoulos,Christos-Nikolaos,TheodorosIliou,andIoannisGiannoukos."Featuresandclassifiersforemotionrecognitionfromspeech:asurveyfrom2000to2011."ArtificialIntelligenceReview43.2(2015):155-177.

Connor,JeromeT.,R.DouglasMartin,andLesE.Atlas."Recurrentneuralnetworksandrobusttimeseriesprediction."IEEEtransactionsonneuralnetworks5.2(1994):240-254.

Pascanu,Razvan,TomasMikolov,andYoshuaBengio."Onthedifficultyoftrainingrecurrentneuralnetworks."ICML(3)28(2013):1310-1318.

Hochreiter,Sepp,andJürgenSchmidhuber."Longshort-termmemory."Neuralcomputation9.8(1997):1735-1780.

Senior,Andrew,HasimSak,andIzhakShafran."ContextdependentphonemodelsforLSTMRNNacousticmodelling."2015IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing(ICASSP).IEEE,2015.

Zazo,Ruben,etal."LanguageIdentificationinShortUtterancesUsingLongShort-TermMemory(LSTM)RecurrentNeuralNetworks."PloSone11.1(2016):e0146917.

Khorrami,Pooya,etal."HowDeepNeuralNetworksCanImproveEmotionRecognitiononVideoData."arXivpreprintarXiv:1602.07377(2016).

H.Wold.Partialleastsquares.Encyclopediaofstatisticalsciences,1985.

Eyben,Florian,etal."TheGenevaminimalisticacousticparameterset(GeMAPS)forvoiceresearchandaffectivecomputing."IEEETransactionsonAffectiveComputing7.2(2016):190-202.

A.Dhall,R.Goecke,J.Joshi,K.Sikka,andT.Gedeon.Emotionrecognitioninthewildchallenge2014:Baseline,dataandprotocol.InACMICMI.ACM,2014.

F.Ringeval,S.Amiriparian,F.Eyben,K.Scherer,andB.Schuller.Emotionrecognitioninthewild:Incorporatingvoiceandlipactivityinmultimodaldecision-levelfusion.InProc.ofEmotiW,ICMI,pages473{480,Istanbul,Turkey,November2014.

D.Bone,C.-C.Lee,andS.S.Narayanan.Robustunsupervisedarousalrating:Arule-basedframeworkwithknowledge-inspiredvocalfeatures.IEEETransactionsonAffectiveComputing,5(2):201{213,April-June2014.

F.Eyben,F.Weninger,F.Grob,andB.Schuller.RecentdevelopmentsinopenSMILE,theMunichopen-sourcemultimediafeatureextractor.InProc.ofACMMM,pages835{838,Barcelona,Spain,October2013.

Weninger,Felix,JohannesBergmann,andBjornSchuller."IntroducingCURRENNT–theMunichopen-sourceCUDARecurREntneuralnetworktoolkit."JournalofMachineLearningResearch16.3(2015):547-551.

Kim,Bo-Kyeong,etal."Hierarchicalcommitteeofdeepcnnswithexponentially-weighteddecisionfusionforstaticfacialexpressionrecognition."Proceedingsofthe2015ACMonInternationalConferenceonMultimodalInteraction.ACM,2015.

Jia,Yangqing,etal."Caffe:Convolutionalarchitectureforfastfeatureembedding."Proceedingsofthe22ndACMinternationalconferenceonMultimedia.ACM,2014.

Krizhevsky,Alex,IlyaSutskever,andGeoffreyE.Hinton."Imagenetclassificationwithdeepconvolutionalneuralnetworks."Advancesinneuralinformationprocessingsystems.2012.

AbhinavDhall,RolandGoecke,SimonLucey,andTomGedeon.CollectingLarge,RichlyAnnotatedFacial-ExpressionDatabasesfromMovies.IEEEMultiMedia,19(3):34{41,2012.

AbhinavDhall,RolandGoecke,JyotiJoshi,JesseHoey,andTomGedeon,EmotiW2016:VideoandGroup-levelEmotionRecognitionChallenges,ACMICMI2016.

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運(yùn)動(dòng)控制

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

直驅(qū)與傳動(dòng)

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

中國傳動(dòng)網(wǎng)

關(guān)注中國傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

2018年第三期

2018年第三期

圖片閱讀

掃碼關(guān)注小程序

時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)

雜志訂閱

填寫郵件地址,訂閱更多資訊:

撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運(yùn)動(dòng)控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運(yùn)動(dòng)控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運(yùn)動(dòng)控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運(yùn)動(dòng)控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運(yùn)動(dòng)控制

    2023年第1期