技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充在魯棒語音識(shí)別和關(guān)鍵詞檢出中的應(yīng)用

基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充在魯棒語音識(shí)別和關(guān)鍵詞檢出中的應(yīng)用

時(shí)間:2019-05-15 18:01:21來源:孫思寧,王雄,謝磊

導(dǎo)語:?本文將對(duì)抗樣本用于語音識(shí)別和關(guān)鍵詞檢出中深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練過程中,以用來提高聲學(xué)模型的魯棒性。

1.摘要

本文將對(duì)抗樣本用于語音識(shí)別和關(guān)鍵詞檢出中深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的訓(xùn)練過程中,以用來提高聲學(xué)模型的魯棒性。在模型訓(xùn)練過程中,使用基于快速符號(hào)梯度方法來產(chǎn)生對(duì)抗樣本作為原始訓(xùn)練樣本的擴(kuò)充,與傳統(tǒng)的基于數(shù)據(jù)變換的數(shù)據(jù)擴(kuò)充方式不同,本文所提出的方法是一種模型和數(shù)據(jù)相關(guān)的方法,在模型訓(xùn)練過程中,根據(jù)模型的參數(shù)和當(dāng)前訓(xùn)練數(shù)據(jù)動(dòng)態(tài)地生成對(duì)抗樣本。在本文中,對(duì)于語音識(shí)別任務(wù),我們在Aurora-4數(shù)據(jù)庫上進(jìn)行了實(shí)驗(yàn),我們提出的方法能夠顯著地提高模型對(duì)噪聲和信道的魯棒性,而且,我們將本文所提出的數(shù)據(jù)擴(kuò)充方式和教師/學(xué)生學(xué)習(xí)策略結(jié)合,在Aurora-4數(shù)據(jù)庫上,我們可以得到23%的相對(duì)詞錯(cuò)誤率下降。在關(guān)鍵詞檢出任務(wù)中,我們所提出的方法也明顯地降低了基于注意力機(jī)制的喚醒模型的誤喚醒率和誤拒絕率。

關(guān)鍵詞:魯棒語音識(shí)別,關(guān)鍵詞檢出,對(duì)抗樣本,快速符號(hào)梯度法,數(shù)據(jù)擴(kuò)充

2.前言

近年來,隨著深度學(xué)習(xí)(DeepLearning,DL)的興起以及深度神經(jīng)網(wǎng)絡(luò)(DeepNeuralNetworks,DNNs)在聲學(xué)模型上的成功應(yīng)用,自動(dòng)語音識(shí)別(AutomaticSpeechRecognition,ASR)[1][2]和關(guān)鍵詞檢出(KeywordSpotting,KWS)[3][4]得到了快速發(fā)展。各種網(wǎng)絡(luò)結(jié)構(gòu),例如CNN,RNN和LSTM等,都成功應(yīng)用在聲學(xué)建模中?;贒NNs的聲學(xué)模型在實(shí)際應(yīng)用中,表現(xiàn)出了良好的噪聲魯棒性,因?yàn)槠涮厥饨Y(jié)構(gòu)以及多層非線性變換,讓其具有較強(qiáng)的建模能力。即便如此,基于DNNs的ASR和KWS系統(tǒng),仍然還會(huì)受到噪聲、混響以及信道等因素的影響[6],造成識(shí)別性能地下降。為了解決這些問題,大量的工作在不同的方面被提出來,比如數(shù)據(jù)擴(kuò)充[7]、單/多通道語音增強(qiáng)、特征變換,還有一些有效的學(xué)習(xí)策略,比如教師/學(xué)生(Teacher/Student,T/S)學(xué)習(xí)[8]、對(duì)抗訓(xùn)練[9]等。在本文中,我們主要集中在數(shù)據(jù)擴(kuò)充的方法,來提高ASR和KWS系統(tǒng)的魯棒性。

當(dāng)訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)之間存在分布的不匹配時(shí),聲學(xué)模型的性能將會(huì)大打折扣。為了彌補(bǔ)這種不匹配的問題,數(shù)據(jù)擴(kuò)充是一個(gè)非常有效而且被廣泛采用的方法,數(shù)據(jù)擴(kuò)充的目的是通過對(duì)干凈數(shù)據(jù)添加噪聲、混響等干擾,產(chǎn)生干凈數(shù)據(jù)的帶噪副本,模擬真實(shí)的帶噪數(shù)據(jù),提高訓(xùn)練數(shù)據(jù)的多樣性,然后將其用于模型訓(xùn)練。這種訓(xùn)練方式,被稱作多場景訓(xùn)練。此外,T/S學(xué)習(xí)也是一種常用的提高模型魯棒性的方法,它可以在有監(jiān)督或者無監(jiān)督的場景下進(jìn)行使用,T/S學(xué)習(xí)需要并行的數(shù)據(jù)分別訓(xùn)練T模型和S模型。

為了提高模型對(duì)于噪聲的魯棒性,本文提出來一種使用對(duì)抗樣本來進(jìn)行數(shù)據(jù)擴(kuò)充的方法。對(duì)抗樣本(AdversarialExamples)的概念首先是在[10]中計(jì)算機(jī)視覺任務(wù)上被提出來,研究者們發(fā)現(xiàn),對(duì)于一個(gè)已經(jīng)被完全訓(xùn)練好的圖像識(shí)別網(wǎng)絡(luò),如果對(duì)一個(gè)可以被正確分類的圖像,進(jìn)行一些非常細(xì)微的像素級(jí)別的擾動(dòng),即使擾動(dòng)是人眼難以察覺的,模型也將會(huì)將擾動(dòng)后的圖像錯(cuò)誤分類,這種被錯(cuò)誤分類的樣本被稱作對(duì)抗樣本。對(duì)抗樣本的存在,說明現(xiàn)有的模型對(duì)某些極小的擾動(dòng)非常的敏感!在計(jì)算機(jī)視覺領(lǐng)域,對(duì)抗樣本吸引的研究者的廣泛興趣。最近,對(duì)抗樣本的研究也擴(kuò)展到語音信號(hào)領(lǐng)域,[12]提出來一種對(duì)端到端語音識(shí)別模型的定向攻擊方法:給定一段語音,產(chǎn)生一段人耳不可感知的擾動(dòng),擾動(dòng)后的語音可以被識(shí)別成任何目標(biāo)文本。同樣地,在KWS系統(tǒng)中,我們很自然地把誤喚醒(Falsealarmed,F(xiàn)A)或誤拒絕(Falserejected,F(xiàn)R)的樣本當(dāng)成對(duì)抗樣本!當(dāng)系統(tǒng)遇到與關(guān)鍵字完全無關(guān)的樣例時(shí),仍然會(huì)存在錯(cuò)誤喚醒的現(xiàn)象,或者當(dāng)輸入明顯是關(guān)鍵字時(shí),系統(tǒng)會(huì)錯(cuò)誤地拒絕。由于復(fù)雜的聲學(xué)環(huán)境和許多其他不可預(yù)測的原因,觸發(fā)FA和FR的樣例往往是不可重現(xiàn)的。正是因?yàn)槿绱?,這種不可重現(xiàn)的屬性使得進(jìn)一步提高KWS性能變得很困難。

之前基于對(duì)抗樣本改進(jìn)模型魯棒性的工作,主要是為了提高模型對(duì)對(duì)抗樣本的魯棒性。而在我們本文的工作中,我們的目的是通過使用基于對(duì)抗樣本地?cái)?shù)據(jù)擴(kuò)充來提高模型對(duì)于正常的帶噪聲數(shù)據(jù)的魯棒性,而不僅是針對(duì)對(duì)抗樣本。在訓(xùn)練階段,快速符號(hào)梯度法(FastGradientSignMethod,F(xiàn)GSM)[11]被用來動(dòng)態(tài)的生成對(duì)抗樣本,與其他方法相比,F(xiàn)GSM方法比較高效。對(duì)于每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù),對(duì)抗樣本生成之后,模型參數(shù)將會(huì)使用對(duì)抗樣本進(jìn)行更新。另外,在ASR任務(wù)中,我們還將提出的基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充方法和T/S學(xué)習(xí)結(jié)合,發(fā)現(xiàn)兩個(gè)方法帶來的增益可以相互疊加。

本文章節(jié)安排如下:第2章詳細(xì)介紹FGSM生成對(duì)抗樣本的方法;第3章介紹對(duì)抗樣本在聲學(xué)模型訓(xùn)練中的應(yīng)用;第4章將會(huì)給出實(shí)驗(yàn)設(shè)置以及實(shí)驗(yàn)結(jié)果;第5章對(duì)全文進(jìn)行總結(jié)。

3.對(duì)抗樣本

對(duì)抗樣本定義

對(duì)抗樣本的目的是成功地破壞一個(gè)已經(jīng)被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)模型,即使一個(gè)非常好的模型,也特別容易遭受對(duì)抗樣本的攻擊,即模型的預(yù)測十分容易被輸入端的人為擾動(dòng)干擾,即使擾動(dòng)是人耳無法察覺的。這種人為擾動(dòng),稱為對(duì)抗擾動(dòng),而這種被對(duì)抗擾動(dòng)干擾的樣本,稱為對(duì)抗樣本。對(duì)抗樣本的存在,說明網(wǎng)絡(luò)的輸出關(guān)于輸入存在不平滑的問題,即輸入端的極小變化可以造成輸出端的一個(gè)巨大的跳躍。

一般來說,一個(gè)機(jī)器學(xué)習(xí)模型,比如神經(jīng)網(wǎng)絡(luò),可以表示為一個(gè)參數(shù)化的函數(shù)智能系統(tǒng)孫思寧_對(duì)抗樣本2622.png,其中,智能系統(tǒng)孫思寧_對(duì)抗樣本2627.png是輸入特征向量,智能系統(tǒng)孫思寧_對(duì)抗樣本2636.png 是模型的參數(shù)。給定一個(gè)輸入樣本智能系統(tǒng)孫思寧_對(duì)抗樣本2652.png ,及其對(duì)應(yīng)的標(biāo)簽智能系統(tǒng)孫思寧_對(duì)抗樣本2661.png ,一個(gè)訓(xùn)練好的模型智能系統(tǒng)孫思寧_對(duì)抗樣本2671.png 將用來預(yù)測樣本的標(biāo)簽。而對(duì)抗樣本,可以通過下面的公式來構(gòu)建:

智能系統(tǒng)孫思寧_對(duì)抗樣本2703.png   (1)

并且有

智能系統(tǒng)孫思寧_對(duì)抗樣本2736.png 

其中

智能系統(tǒng)孫思寧_對(duì)抗樣本2742.png 

智能系統(tǒng)孫思寧_對(duì)抗樣本2744.png被稱作為對(duì)抗擾動(dòng)。對(duì)于一個(gè)已經(jīng)被訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),一般來說,普通的隨機(jī)擾動(dòng)將不會(huì)影響網(wǎng)絡(luò)的輸出,因此,對(duì)抗樣本產(chǎn)生的關(guān)鍵是對(duì)抗擾動(dòng)的設(shè)計(jì)和生成,一旦可以生成對(duì)抗擾動(dòng),對(duì)抗樣本就可以作為訓(xùn)練數(shù)據(jù)來進(jìn)行網(wǎng)絡(luò)訓(xùn)練,從而提高模型的的平滑性和魯棒性。

對(duì)抗樣本的生成

在本文中,我們使用快速符號(hào)梯度法(FGSM)來進(jìn)行對(duì)抗樣本的生成。FGSM利用當(dāng)前的模型參數(shù)和訓(xùn)練數(shù)據(jù),生成公式(1)中的對(duì)抗擾動(dòng)。給定模型參數(shù)智能系統(tǒng)孫思寧_對(duì)抗樣本2946.png ,輸入智能系統(tǒng)孫思寧_對(duì)抗樣本2950.png 和輸出智能系統(tǒng)孫思寧_對(duì)抗樣本2954.png,模型在訓(xùn)練階段使用訓(xùn)練數(shù)據(jù)來最小化損失函數(shù)智能系統(tǒng)孫思寧_對(duì)抗樣本2977.png,在一般的分類任務(wù)中,損失函數(shù)一般采用交叉熵,也是本文中使用的損失函數(shù)。當(dāng)網(wǎng)絡(luò)參數(shù)已經(jīng)被優(yōu)化,網(wǎng)絡(luò)收斂之后,為了在輸入空間上尋找一個(gè)能夠使網(wǎng)絡(luò)損失函數(shù)增大的擾動(dòng)方向,即能夠使網(wǎng)絡(luò)對(duì)輸入進(jìn)行錯(cuò)誤分類的方向,F(xiàn)GSM提出使用下面公式來進(jìn)行擾動(dòng)的計(jì)算:

智能系統(tǒng)孫思寧_對(duì)抗樣本3102.png 

其中,智能系統(tǒng)孫思寧_對(duì)抗樣本3108.png 是一個(gè)極小的常量,注意到,F(xiàn)GSM使用了一個(gè)符號(hào)函數(shù)來獲取的損失函數(shù)關(guān)于輸入的梯度的符號(hào),而并非直接使用梯度的值,目的是為了滿足擾動(dòng)的最大范數(shù)約束,并且容易控制擾動(dòng)的幅度,從而滿足公式(3)的約束。我們在后面的實(shí)驗(yàn)中證明,一個(gè)小的智能系統(tǒng)孫思寧_對(duì)抗樣本3224.png 便足夠產(chǎn)生增強(qiáng)模型魯棒性的對(duì)抗樣本。

4.使用對(duì)抗樣本進(jìn)行聲學(xué)模型訓(xùn)練

與其他的基于數(shù)據(jù)仿真的數(shù)據(jù)擴(kuò)充的方法不同,例如添加噪聲和混響的方法,基于對(duì)抗的樣本的數(shù)據(jù)擴(kuò)充方法是一種模型和數(shù)據(jù)相關(guān)的方法,并且明確的將對(duì)抗樣本和損失函數(shù)關(guān)聯(lián)起來,明確產(chǎn)生了能使損失函數(shù)的數(shù)值增大的樣本,因此,這種方法更為高效。一旦生成對(duì)抗樣本,這些對(duì)抗樣本將用來訓(xùn)練網(wǎng)絡(luò),進(jìn)而增強(qiáng)網(wǎng)絡(luò)對(duì)干擾的魯棒性。在本工作中,F(xiàn)GSM方法用來為每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù)動(dòng)態(tài)地生成對(duì)抗樣本。算法1給出了在聲學(xué)模型訓(xùn)練過程中用到的流程。

算法1:使用對(duì)抗樣本訓(xùn)練聲學(xué)模型

1.1.jpg

在聲學(xué)模型訓(xùn)練中,輸入特征智能系統(tǒng)孫思寧_對(duì)抗樣本3695.png 一般為MFCC特征,目標(biāo)智能系統(tǒng)孫思寧_對(duì)抗樣本3708.png 為綁定的隱馬爾可夫模型的狀態(tài)。在上述的算法1,每一個(gè)mini-batch的訓(xùn)練數(shù)據(jù)中,我們采用4步操作,來進(jìn)行模型的訓(xùn)練:(1)使用原始的訓(xùn)練數(shù)據(jù)訓(xùn)練模型參數(shù),然后將模型參數(shù)固定,產(chǎn)生當(dāng)前數(shù)據(jù)的對(duì)抗擾動(dòng)智能系統(tǒng)孫思寧_對(duì)抗樣本3810.png 。因?yàn)镕GSM使用了符號(hào)函數(shù),因此,對(duì)抗擾動(dòng)每一維上的數(shù)值為 智能系統(tǒng)孫思寧_對(duì)抗樣本3841.png或者智能系統(tǒng)孫思寧_對(duì)抗樣本3844.png;(2)使用生成的對(duì)抗擾動(dòng)來生成對(duì)抗樣本;(3)將對(duì)抗樣本和原始數(shù)據(jù)的目標(biāo)進(jìn)行組合,產(chǎn)生新的訓(xùn)練數(shù)據(jù);(4)使用新生成的訓(xùn)練數(shù)據(jù)進(jìn)行模型訓(xùn)練,更新模型參數(shù)。在這里,我們要強(qiáng)調(diào)的是,我們將對(duì)抗樣本和原始的標(biāo)簽進(jìn)行了組合,因?yàn)樵谖覀兊膶?shí)驗(yàn)里,擾動(dòng)非常小,我們希望神經(jīng)網(wǎng)絡(luò)可以輸出和原始的樣本相同的預(yù)測類別。通過FGSM生成的對(duì)抗樣本,能夠使模型損失函數(shù)明顯上升,說明這些樣本是當(dāng)前模型的“盲點(diǎn)”,模型無法成功覆蓋這些區(qū)域,導(dǎo)致模型產(chǎn)生了不可預(yù)知的錯(cuò)誤。

5.實(shí)驗(yàn)

數(shù)據(jù)庫和系統(tǒng)描述

Aurora-4數(shù)據(jù)庫

Aurora-4數(shù)據(jù)庫是一個(gè)基于華爾街日?qǐng)?bào)(WallStreetJournal,WSJ)的噪聲魯棒的中詞匯量的連續(xù)語音識(shí)別數(shù)據(jù)庫,即以WSJ0數(shù)據(jù)庫為基礎(chǔ)通過加噪產(chǎn)生的。Aurora-4中,兩種麥克風(fēng)被用來進(jìn)行錄音:主要麥克風(fēng)和次要麥克風(fēng)。次要麥克風(fēng)中包含多種不同的型號(hào),兩種麥克風(fēng)同時(shí)用來進(jìn)行7138句訓(xùn)練數(shù)據(jù)的錄制。Aurora-4的訓(xùn)練數(shù)據(jù)集合可分為兩個(gè):干凈訓(xùn)練數(shù)據(jù)和多場景帶噪聲訓(xùn)練數(shù)據(jù)。干凈訓(xùn)練數(shù)據(jù)全部使用主麥克風(fēng)錄制,不含有任何噪聲。多場景訓(xùn)練數(shù)據(jù)也包括7138句話,包含主麥克風(fēng)和次麥克風(fēng)錄制的數(shù)據(jù),同時(shí)也包含干凈的和帶噪聲的數(shù)據(jù),因此,多場景訓(xùn)練數(shù)據(jù)覆蓋了更多的噪聲和信道(麥克風(fēng))失真。Aurora-4的測試集合也包含4種:干凈測試集(A)、帶噪測試集(B)、信道失真測試集(C)以及噪聲和信道失真測試集(D)。A集合只包含330句主麥克風(fēng)錄制的干凈語音;B集合包含6個(gè)A集合的帶噪數(shù)據(jù)的副本,總計(jì)330*6=1980句;C集合只包含330句次麥克風(fēng)錄制的干凈語音;D集合包含6個(gè)C集合的帶噪數(shù)據(jù)的副本。

喚醒數(shù)據(jù)庫

我們使用出門問問(Mobvoi)智能音箱TicKasaFox2收集的喚醒數(shù)據(jù)驗(yàn)證我們的方法。喚醒詞由三個(gè)普通話音節(jié)組成(“嗨小問”)。這一數(shù)據(jù)集涵蓋了523個(gè)不同的說話者,包括303名兒童和220名成年人。此外,每個(gè)說話人的集合包括正樣例(帶喚醒詞)和負(fù)樣例,每個(gè)說話人的集合包括在不同的麥克風(fēng)的距離和不同的信噪比下錄制的數(shù)據(jù),其中噪音來自典型的家庭環(huán)境??偣灿?0K正樣例(約10小時(shí))和54K負(fù)樣例(約57小時(shí))用作為訓(xùn)練數(shù)據(jù)。校驗(yàn)集包括2.3K正樣例(約1.1h)和5.5K負(fù)樣例(約6.2h),而測試集包括2K正樣例(約1h)和5.9K的負(fù)樣例(約6h)。

系統(tǒng)描述

語音識(shí)別工作中,我們采用了CNN作為聲學(xué)模型,CNN模型在多個(gè)工作中表現(xiàn)出來了對(duì)噪聲較強(qiáng)的魯棒性,在本文中,我們采用了和[15]中一樣的模型結(jié)構(gòu)。對(duì)于Aurora-4的實(shí)驗(yàn),40維的FBANK特征,已經(jīng)11幀的上下文信息被用來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。對(duì)于CHiME-4的實(shí)驗(yàn),我們使用Kaldi的fMLLR特征作為網(wǎng)絡(luò)訓(xùn)練的特征,所有的特征提取以及高斯混合模型聲學(xué)模型的訓(xùn)練,都是基于Kaldi[13]完成的,神經(jīng)網(wǎng)絡(luò)的訓(xùn)練已經(jīng)對(duì)抗樣本的實(shí)現(xiàn),則是基于Tensorflow[14]。在兩個(gè)實(shí)驗(yàn)中,開發(fā)集合用來確定最優(yōu)模型的參數(shù),包括對(duì)抗樣本的對(duì)抗擾動(dòng)權(quán)重智能系統(tǒng)孫思寧_對(duì)抗樣本5196.png ,之后最優(yōu)的模型直接應(yīng)用于測試集合。

在關(guān)鍵詞檢出工作中,我們遵循了[5]中使用的基于注意力機(jī)制的端到端模型結(jié)構(gòu)。編碼器采用1層GRU。由于與正樣例相比,負(fù)樣例的持續(xù)時(shí)間較長,因此我們在訓(xùn)練中對(duì)正樣例進(jìn)行了分割,分割的長度為200幀(約2s)。在測試過程中,使用一個(gè)幀長200的窗口,幀移為每次1幀。如果一個(gè)樣例中至少有一幀移動(dòng)后的得分大于預(yù)先設(shè)置的閾值,則觸發(fā)KWS系統(tǒng)。我們的實(shí)驗(yàn)是基于TensorFlow進(jìn)行的,采用ADAM作為優(yōu)化器。

實(shí)驗(yàn)結(jié)果

Aurora-4語音識(shí)別實(shí)驗(yàn)

智能系統(tǒng)孫思寧_對(duì)抗樣本5462.png 

圖1Aurora-4數(shù)據(jù)庫開發(fā)集上的WER(%)和對(duì)抗權(quán)重的關(guān)系

圖1展示了Aurora-4數(shù)據(jù)庫開發(fā)集合上詞錯(cuò)誤率(WordErrorRate,WER)和對(duì)抗權(quán)重的關(guān)系?;趫D1的結(jié)果,當(dāng)智能系統(tǒng)孫思寧_對(duì)抗樣本5587.png時(shí),在開發(fā)集合上得到了最優(yōu)的效果。因此,我們將詞模型使用測試集合進(jìn)行測試。表1給出了在Aurora-4的4個(gè)測試集合上的結(jié)果,其中,基線模型是使用多場景訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的模型,對(duì)抗樣本模型是使用算法1的流程進(jìn)行訓(xùn)練的,從表1中我們可以看出,使用對(duì)抗樣本之后,我們?nèi)〉昧似骄?4.1%的WER的相對(duì)下降,在3個(gè)具有失真的測試集上,對(duì)抗樣本模型都取得了提升,特別是在集合D上,我們提出的方法獲得了18.6%的WER的相對(duì)提升。在干凈測試集合A上雖然識(shí)別效果變差,主要原因是訓(xùn)練數(shù)據(jù)中引入了過多的帶噪數(shù)據(jù),這個(gè)問題可以通過添加更多的干凈數(shù)據(jù)來彌補(bǔ)。

表1Aurora-4測試集合上基線模型和使用對(duì)抗樣本模型的WER(%)的對(duì)比

1.2.jpg 

此外,本文提出的數(shù)據(jù)擴(kuò)充的方法,可以與其它的學(xué)習(xí)和訓(xùn)練策略進(jìn)行結(jié)合,為了驗(yàn)證這一點(diǎn),我們將其與T/S學(xué)習(xí)進(jìn)行結(jié)合,實(shí)驗(yàn)結(jié)果證明,兩中策略所帶來的收益是可以疊加的。Aurora-4數(shù)據(jù)庫里包含成對(duì)的干凈和帶噪語音,因此,我們可以利用干凈的模型訓(xùn)練T模型,帶噪數(shù)據(jù)用來訓(xùn)練S模型,當(dāng)S模型進(jìn)行訓(xùn)練的時(shí)候,使用下面的損失函數(shù)進(jìn)行訓(xùn)練:

智能系統(tǒng)孫思寧_對(duì)抗樣本6202.png   (5)

其中,智能系統(tǒng)孫思寧_對(duì)抗樣本6213.png ,CE為交叉熵?fù)p失函數(shù),智能系統(tǒng)孫思寧_對(duì)抗樣本6226.png 為S模型的參數(shù),智能系統(tǒng)孫思寧_對(duì)抗樣本6235.png 為帶噪數(shù)據(jù)的特征,智能系統(tǒng)孫思寧_對(duì)抗樣本6245.png 為原始的監(jiān)督信息,智能系統(tǒng)孫思寧_對(duì)抗樣本6255.png 為教師模型的輸出的概率分布,它是通過將干凈語音智能系統(tǒng)孫思寧_對(duì)抗樣本6279.png 輸入到T模型得到的概率分布:智能系統(tǒng)孫思寧_對(duì)抗樣本6295.png 

其中,智能系統(tǒng)孫思寧_對(duì)抗樣本6300.png 為T模型訓(xùn)練好的參數(shù)。表2給出了我們使用T/S學(xué)習(xí)和對(duì)抗樣本結(jié)合的實(shí)驗(yàn)結(jié)果。從表2中可以看出,使用T/S學(xué)習(xí)可以明顯降低WER,將T/S學(xué)習(xí)和對(duì)抗樣本結(jié)合之后,我們可以獲得8.50%的最好的識(shí)別結(jié)果,同時(shí),為了證明增益是來自對(duì)抗樣本而不是因?yàn)閿?shù)據(jù)量的增加,我們將對(duì)抗擾動(dòng)換成了隨機(jī)擾動(dòng),我們發(fā)現(xiàn)隨機(jī)擾動(dòng)只帶來了很小的增益,從而證明了對(duì)抗樣本的有效性。更多細(xì)節(jié)可以參考文章[16]。

表2Aurora-4測試集合上對(duì)抗樣本和T/S結(jié)合的實(shí)驗(yàn)結(jié)果

 1.3.jpg

喚醒實(shí)驗(yàn)

為了驗(yàn)證FGSM方法對(duì)模型產(chǎn)生的影響,我們在測試集上使用FGSM生成了相反的樣例,正樣例擾動(dòng)(即Pos-FGSM)表示擾動(dòng)只添加到關(guān)鍵字部分。負(fù)樣例擾動(dòng)(即Neg-FGSM)則將擾動(dòng)直接被添加到整個(gè)樣例。當(dāng)我們測試得到的結(jié)果是KWS模型面對(duì)對(duì)抗樣本時(shí),F(xiàn)RR急劇增加。如圖3,我們分析了的注意力層的權(quán)重在添加對(duì)抗擾動(dòng)之前和之后的變化??梢钥闯?,模型的權(quán)重發(fā)生了較大的偏移,即注意力機(jī)制被破壞,模型所“注意”的關(guān)鍵詞位置錯(cuò)誤,從而導(dǎo)致很容易輸出錯(cuò)誤的結(jié)果。

 智能系統(tǒng)孫思寧_對(duì)抗樣本6947.png

圖3(1)正樣例注意力權(quán)重層圖3(2)負(fù)樣例注意力權(quán)重層

這一觀察結(jié)果表明,目前的模型是對(duì)對(duì)抗性擾動(dòng)的樣例非常敏感的問題確實(shí)存在。為了提高模型的魯棒性,我們使用對(duì)抗性樣本進(jìn)一步擴(kuò)展了訓(xùn)練數(shù)據(jù)。具體來說,我們使用對(duì)抗樣例對(duì)模型進(jìn)行了重新訓(xùn)練。在訓(xùn)練階段,為每一步中的訓(xùn)練數(shù)據(jù)生成對(duì)抗性樣例(包括正樣例和負(fù)樣例)。然后這些樣例被用來再次訓(xùn)練一個(gè)已經(jīng)訓(xùn)練良好的KWS模型。在具體實(shí)驗(yàn)中,我們也一樣嘗試了不同的訓(xùn)練策略,包括只使用正樣例對(duì)抗樣本、只使用負(fù)樣例對(duì)抗樣本和使用正負(fù)樣例對(duì)抗樣本,作為對(duì)照我們還設(shè)置了隨機(jī)擾動(dòng)樣本。

表4一小時(shí)誤喚醒一次時(shí)的誤拒絕率

智能系統(tǒng)孫思寧_對(duì)抗樣本7248.png 

智能系統(tǒng)孫思寧_對(duì)抗樣本7250.png 

圖4不同訓(xùn)練策略的ROC曲線

圖4為各種方法的ROC曲線結(jié)果,這里超參數(shù)智能系統(tǒng)孫思寧_對(duì)抗樣本7290.png 。Pos-FGSM和Neg-FGSM分別表示使用正負(fù)對(duì)抗樣例擴(kuò)充,而ALL-FGSM表示正負(fù)樣例都擴(kuò)充。Random表示對(duì)所有訓(xùn)練數(shù)據(jù)加上隨機(jī)符號(hào)擾動(dòng),而非使用對(duì)抗擾動(dòng)。表4表示測試集中FAR為1.0時(shí)的FRR的大小。從中我們看到基于Pos-FGSM和Neg-FGSM的對(duì)抗樣例數(shù)據(jù)擴(kuò)充能顯著降低FRR,降低比例分別為45.6%和24.8%。作為比較,隨機(jī)的擾動(dòng)擴(kuò)充樣例也能稍微提高模型性能。綜上所述,使用對(duì)抗樣例擴(kuò)充訓(xùn)練數(shù)據(jù)是提高模型魯棒性的有效方法。更多細(xì)節(jié)可參考文章[17]。

6.結(jié)論

本文提出了一種基于對(duì)抗樣本的數(shù)據(jù)擴(kuò)充方法,并將其應(yīng)用在魯棒ASR和KWS任務(wù)中。在模型訓(xùn)練過程種,F(xiàn)GSM方法被用來進(jìn)行對(duì)抗樣本的動(dòng)態(tài)產(chǎn)生。在Aurora-4魯棒語音識(shí)別任務(wù)上,我們的提出的方法可以獲得14.1%的WER的相對(duì)降低。同時(shí),實(shí)驗(yàn)結(jié)果表明,將本文和其它學(xué)習(xí)方式結(jié)合,例如T/S學(xué)習(xí),可以獲得更進(jìn)一步的提高,在Aurora-4任務(wù)上,通過和T/S結(jié)合,我們獲得了23%的WER相對(duì)下降。在KWS任務(wù)中,我們針對(duì)KWS任務(wù),進(jìn)行了不同方式數(shù)據(jù)擴(kuò)充,所提出的數(shù)據(jù)擴(kuò)充方法同樣可以有效降低基于注意力機(jī)制的KWS模型的FAR和FRR。

7.參考文獻(xiàn)

1.4.jpg

1.5.jpg

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:基于非對(duì)稱均方誤差的人體姿...

下一篇:高壓變頻器維修因功率單元原...

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

網(wǎng)站簡介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號(hào) | 營業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)