面向智能語音控制場景的短語音說話人確認(rèn)技術(shù)綜述

文:北京大學(xué)深圳研究生院現(xiàn)代信號與數(shù)據(jù)處理實驗室 彭俊逸 鄒月嫻2018年第四期

    基于語音的說話人認(rèn)證技術(shù)(聲紋識別技術(shù))屬于生物特征識別研究范疇,在互聯(lián)網(wǎng)/物聯(lián)網(wǎng)時代具有重要的應(yīng)用價值。目前,限定條件下的說話人身份認(rèn)證技術(shù)已較為成熟,在智能手機、銀行服務(wù)、門禁控制和智能客服等場景獲得了廣泛的應(yīng)用。然而,作為智能控制場景中實現(xiàn)基于語音的自然人機交互的關(guān)鍵技術(shù),短語音說話人身份認(rèn)證技術(shù)目前尚不能滿足應(yīng)用需求。本文將重點對短語音說話人確認(rèn)技術(shù)的研究進行技術(shù)綜述。首先,概述說話人確認(rèn)技術(shù)的基本概念和主流技術(shù)路線;其次,分析短語音說話人確認(rèn)技術(shù)面臨的挑戰(zhàn);然后,對基于深度學(xué)習(xí)的說話人確認(rèn)技術(shù)進行綜述;最后,展望了短語音說話人確認(rèn)技術(shù)的發(fā)展趨勢和應(yīng)用前景。

1  引言

    人類之所以能夠”聞其聲而知其人”,是因為每個說話人都有不同的說話方式和用詞習(xí)慣,以及略有差異的發(fā)聲器官生理結(jié)構(gòu),這兩點導(dǎo)致不同說話人在聲音上各具特點,具有不同聲紋信息?;谡Z音的說話人確認(rèn)是利用計算機分析和提取語音中蘊含的說話人信息來自動進行說話人身份認(rèn)證的技術(shù),是自然人機交互的重要技術(shù)之一,也是智能機器人的關(guān)鍵技術(shù),具有重要的研究價值。

    說話人確認(rèn)技術(shù)目前廣泛應(yīng)用于各類具有身份認(rèn)證需求的領(lǐng)域,例如:在智能家居領(lǐng)域,說話人確認(rèn)技術(shù)能幫助智能設(shè)備確認(rèn)說話人的身份,使得智能系統(tǒng)能對于不同說話人提供定制化服務(wù)和內(nèi)容;在金融領(lǐng)域,說話人確認(rèn)技術(shù)可以用于基于網(wǎng)絡(luò)交易的遠(yuǎn)程身份認(rèn)證,進而提高金融賬戶的安全性,并降低基于互聯(lián)網(wǎng)的金融犯罪成功率;在公安司法領(lǐng)域,可以用于電信詐騙犯的身份偵查,從而幫助公安有效遏制并打擊犯罪。具體而言,公安人員可以利用說話人確認(rèn)技術(shù),先從電話錄音中截取目標(biāo)說話人的語音數(shù)據(jù),再匹配說話人數(shù)據(jù)庫,最終鎖定犯罪嫌疑人。使用先進的說話人確認(rèn)技術(shù)可以降低辦案成本,提高破案率。

    說話人確認(rèn)技術(shù)的研究開始于20世紀(jì)30年代,早期研究人員的工作主要集中在人耳聽辨,模板匹配等方向;隨著統(tǒng)計學(xué)和計算機科學(xué)的發(fā)展,說話人確認(rèn)的工作開始轉(zhuǎn)向語音特征提取和模式匹配等方法研究;近年隨著人工智能的崛起和計算能力的提升,基于機器學(xué)習(xí)和深度學(xué)習(xí)的說話人確認(rèn)技術(shù)逐漸成為主流。

    本文將首先介紹說話人確認(rèn)的基本概念,其次從特征提取和短語音建模兩個角度,對智能語音控制場景下的短語音說話人確認(rèn)技術(shù)的發(fā)展歷程進行簡要回顧,然后分析幾類運用深度學(xué)習(xí)的短語音說話人確認(rèn)技術(shù),最后對發(fā)展趨勢做出總結(jié)與展望。

2  說話人確認(rèn)技術(shù)綜述

    說話人確認(rèn)(SpeakerVerification)技術(shù),如圖1所示,是確定待識別的語音是否來自其所宣稱的目標(biāo)說話人[1][2],是“一對一”的判決問題。具體而言,說話人確認(rèn)任務(wù)可以分為訓(xùn)練,注冊,驗證三個階段。在訓(xùn)練階段:利用大量的數(shù)據(jù)訓(xùn)練說話人通用模型;注冊階段:采集注冊說話人的少量語音數(shù)據(jù)并通過算法獲得注冊說話人的聲紋模型;驗證階段:輸入聲稱為目標(biāo)說話人的測試語音并計算對應(yīng)的說話人模型,再與已經(jīng)注冊的目標(biāo)說話人模型進行匹配,最終判定其身份是否為已注冊的目標(biāo)說話人。

圖1說話人確認(rèn)概念示意圖

2.1文本相關(guān)和文本無關(guān)

    根據(jù)說話人確認(rèn)技術(shù)對語音的文本信息是否予以限制,可以將說話人確認(rèn)技術(shù)分為文本無關(guān)的(text-independent)和文本相關(guān)的(text-dependent)。

    文本無關(guān)的說話人確認(rèn)技術(shù):訓(xùn)練模型時不限定所采用語音數(shù)據(jù)的文本信息,且訓(xùn)練語音和測試語音的文本內(nèi)容不要求一致,即說話人可以隨意說任意語句。

    文本相關(guān)的說話人確認(rèn)技術(shù):模型訓(xùn)練時所采用語音數(shù)據(jù)的文本內(nèi)容預(yù)先固定在某一個特定的范圍內(nèi),并要求訓(xùn)練語音和測試語音的文本內(nèi)容保持一致。

2.2說話人確認(rèn)技術(shù)性能評測

    衡量說話人確認(rèn)技術(shù)性能的兩個基本指標(biāo)是:錯誤接受率(FalseAcceptationRate,F(xiàn)AR)和錯誤拒絕率(FalseRejectionRate,F(xiàn)RR),其定義如下:

    其中,F(xiàn)AR表示將非目標(biāo)說話人的語音經(jīng)說話人確認(rèn)系統(tǒng),其相似度得分大于給定的閾值,從而被判斷為目標(biāo)說話人的錯誤率。FAR的值越小,表示系統(tǒng)將非目標(biāo)說話人錯誤識別成目標(biāo)說話人的概率越低,系統(tǒng)的性能就越好。當(dāng)處于需要實現(xiàn)快速訪問,對于準(zhǔn)確度的要求不高的日常生活中,說話人確認(rèn)系統(tǒng)可以設(shè)定稍高的FAR值。

    另一方面,F(xiàn)RR表示將目標(biāo)說話人語音經(jīng)說話人確認(rèn)系統(tǒng)的得分低于設(shè)置的閾值,被系統(tǒng)判斷為非目標(biāo)說話人的錯誤率。可以看出,F(xiàn)RR的值越小,系統(tǒng)將目標(biāo)說話人誤識為非目標(biāo)說話人的概率越低,系統(tǒng)的性能越好;在需要高安全性的商業(yè)場景中,說話人確認(rèn)系統(tǒng)可設(shè)定稍高的FRR值,以犧牲訪問速度為代價,換取更高的系統(tǒng)安全性。

    根據(jù)FAR和FRR,可拓展得到三個常用的說話人確認(rèn)系統(tǒng)性能評價指標(biāo)。

(1)等錯誤率(EER)

    在說話人確認(rèn)系統(tǒng)效能評測中,F(xiàn)AR隨著閾值的增大而減少,F(xiàn)RR隨閾值的增大而增大。目前國際競賽中最常用的測評指標(biāo)是將FAR和FRR統(tǒng)一為一個指標(biāo)。即取兩者相等時的錯誤率作為衡量說話人確認(rèn)算法的性能指標(biāo),該錯誤率稱為等錯誤率(EqualErrorRate,EER)。在EER指標(biāo)中,F(xiàn)AR和FRR被賦予相同的權(quán)重,即認(rèn)為他們對系統(tǒng)影響的權(quán)重是相同的。

    對于不同的說話人確認(rèn)算法而言,較低的EER值,意味著FAR和EER曲線都會向下移動,表示算法的性能較優(yōu)秀。

(2)最小檢測代價

    美國國家標(biāo)準(zhǔn)及技術(shù)研究所(NationalInstituteofStandardsandTechnology,NIST)在其舉辦的說話人確認(rèn)評測(SpeakerRecognitionEvaluation,SRE)競賽中定義了一個利用FAR和FRR加權(quán)和來衡量說話人確認(rèn)系統(tǒng)性能的指標(biāo),即檢測代價函數(shù)(DetectionCostFunction,DCF)[3]。DCF定義如下:

    其中,CFRR表示錯誤拒絕的權(quán)重系數(shù),CFAR表示錯誤接受的權(quán)重系數(shù);這些參數(shù)的值在比賽中由NIST官方給定,針對不同的任務(wù),每屆比賽中這些參數(shù)的值不盡相同;在實際應(yīng)用中,這些權(quán)重參數(shù)值可以根據(jù)具體的應(yīng)用場景進行設(shè)定。DCF的值取決于判決閾值,改變判決閾值就可以使得DCF的值達到最小,就形成了最小檢測代價(minDCF)。

    相較于EER,minDCF考慮了兩種不同錯誤率帶來不同的代價,因此在實際應(yīng)用中更加合理,可以更好地評價說話人確認(rèn)系統(tǒng)的性能。

(3)DET曲線

    說話人確認(rèn)系統(tǒng)中,可以根據(jù)不同的應(yīng)用場景設(shè)置不同的閾值,對FAR和FRR進行取舍,實際應(yīng)用中一般采用DET曲線(DetectionErrorTrade-offCurve,DETCurve)來表示FAR和FRR隨閾值變化關(guān)系的曲線。如圖2展示的是i-vector系統(tǒng)[4]采用不同后端打分模型所對應(yīng)的DET曲線,從DET曲線可以直觀地看出不同后端打分函數(shù)后說話人確認(rèn)算法的性能差異。顯然DET曲線離原點越近系統(tǒng)的性能越好。此外,DET曲線中的變化是一種階梯狀的階躍函數(shù),當(dāng)測試數(shù)據(jù)集足夠多的時候,DET曲線才能顯示出較平滑的斜率。

圖3DET曲線

3  主流短語音說話人確認(rèn)技術(shù)綜述

    說話人確認(rèn)技術(shù)經(jīng)過近80年的發(fā)展,在辨識能力,魯棒性和模型表達能力上都取得了一些令人矚目的成績。在安靜條件下的長時說話人確認(rèn)技術(shù)已經(jīng)可以滿足商用需求。實際應(yīng)用中,研究人員發(fā)現(xiàn)說話人語音的長短對于說話人確認(rèn)系統(tǒng)有較大的影響[5][6],主流的說話人確認(rèn)技術(shù)在測試語音時長較短(小于3秒)的條件下,其性能有較大的波動。圖3顯示了高斯混合-通用背景模型(GaussianMixtureModel-UniversalBackgroundModel,GMM-UBM)[7]系統(tǒng)和ivector-GPLDA[8]系統(tǒng)當(dāng)語音時長從150秒縮短為2秒間[9],EER的變化情況??梢娬f話人確認(rèn)系統(tǒng)隨著訓(xùn)練和測試數(shù)據(jù)中語音持續(xù)時間的變短而急劇下降。針對這個問題,研究者們開始將說話人確認(rèn)技術(shù)的研究重點轉(zhuǎn)向短語音條件下的說話人確認(rèn)技術(shù)。

圖3說話人確認(rèn)系統(tǒng)性能隨不同語音時長的變化

3.1語音控制場景下短語音說話人確認(rèn)技術(shù)的挑戰(zhàn)

    一般而言,短語音說話人確認(rèn)常見于智能家居,智能機器人等智能語音控制場景。對于智能語音控制場景下的短語音說話人確認(rèn)技術(shù),其短語音指的是,說話人的注冊和驗證的語音內(nèi)容均為時長較短的詞語,比如:“開門”、“關(guān)門”等,時長短于3秒的語音??紤]具體應(yīng)用場景,采集的語音信號混合了其他說話人、環(huán)境噪音、信道失配等干擾信息。對于短語音說話人確認(rèn)技術(shù)的難點,總結(jié)如下:

    (1)時長短:說話人注冊和測試的語音時長較短,通常僅僅只包含幾個字,比如:“開窗”,”關(guān)燈”等。這些語句中包含的有效語音信息較少,且說話人信息不充足[10],可能使得訓(xùn)練和測試時匹配度下降,進而使得說話人確認(rèn)系統(tǒng)表現(xiàn)較差。

    (2)噪聲干擾問題:實際應(yīng)用中,環(huán)境背景噪聲將會對說話人確認(rèn)結(jié)果造成非常大的干擾,噪聲將會導(dǎo)致目標(biāo)說話人語音中混入大量的不確定信息,進而使得參數(shù)模型難以估計準(zhǔn)確統(tǒng)計量,最終嚴(yán)重降低說話人確認(rèn)系統(tǒng)的性能[11]。

    (3)無效錄音:在實際場景中采集語音數(shù)據(jù)時,測試集和訓(xùn)練集中的語音不可避免的混入無效語音,這使得有用語音的時間進一步變短,不足以提供足夠的信息來訓(xùn)練模型。對于傳統(tǒng)的說話人統(tǒng)計模型,這將使模型的后驗協(xié)方差變大[12][13],系統(tǒng)估計的不確定性上升。

3.2短語音說話人確認(rèn)技術(shù)

    由于短語音包含信息有限,不能沿襲傳統(tǒng)的長時說話人確認(rèn)技術(shù)路線,需要尋找更適合短語音的特征表示,并對短語音進行合理建模或補償。

3.2.1特征提取

    傳統(tǒng)長時說話人確認(rèn)方法多采用梅爾倒譜濾波器系數(shù)(MelFilterCepstralCoefficient,MFCC)作為輸入特征,但對于短語音說話人確認(rèn),因為語音中的不確定性往往不能忽略,所以基于MFCC和傳統(tǒng)i-vector的方法難以估計準(zhǔn)確的說話人表征,導(dǎo)致識別率較差[14]。為了克服這一問題,有研究者提出采用多特征融合的方法,利用不同特征包含不同信息的特性,彌補短語音的缺陷。在數(shù)據(jù)量有限的文本無關(guān)說話人確認(rèn)場景下,選取對語音上下文信息變化不敏感的特征進行融合[15]。初期研究者們嘗試了利用LPCC,LSF,PLP和PARCOR(Partialcorrelationcoefficients)[16][17][18]等短時頻譜特征進行融合,來提升短語音說話人確認(rèn)系統(tǒng)的性能。近年,Todisco[19]提出了一種更能表征說話人信息的新特征,稱為CQCC(constantQtransformcoefficients),通過模擬人的聽覺感知系統(tǒng),引入常數(shù)Q因子,使得生成的頻譜圖在高頻和低頻都具有較高的分辨率,同MFCC特征相比更適合短語音說話人確認(rèn)任務(wù)。此外,Leung等[20]利用語音上下文的關(guān)聯(lián)性,提出了基于N-gram語言模型的短語音說話人確認(rèn)的方法。Penny等[21]提出將音素后驗概率信息轉(zhuǎn)換為特征的方法,利用語音識別得到音素后驗概率信息,輔助訓(xùn)練UBM。Fu[22]則使用串聯(lián)特征(Tandemfeature)方法,即串聯(lián)短時頻譜特征和基于語音識別深度網(wǎng)絡(luò)的特征,在基于GMM-UBM的框架下取得了較高的識別率。Sainath[23]采用自編碼器的結(jié)構(gòu),將網(wǎng)絡(luò)的某個隱藏層設(shè)置為瓶頸層(Bottlenecklayer),將瓶頸層的輸出和其他特征串聯(lián),實驗表明該方法有助于提升短語音說話人確認(rèn)系統(tǒng)性能。

3.2.2短語音建模

    近年隨著i-vector框架成為說話人確認(rèn)的基準(zhǔn)(benchmark),研究者也展開了基于i-vector框架的短語音說話人確認(rèn)研究。由于PLDA的框架可以適用于任意語音長度的說話人確認(rèn)[24],因此,許多研究者開始了基于i-vector-PLDA框架下對短語音說話人確認(rèn)技術(shù)的探索。其中模式匹配和歸一化是近年的研究熱點。

    Jelil等[25]提出了在文本相關(guān)的短語音說話人確認(rèn)中使用語音中隱含的音素序列信息的方法,分別構(gòu)建了說話人相關(guān)的GMM和特定短語的高斯后驗概率圖,在測試階段,一方面需要比較目標(biāo)說話人的GMM,另一方面,也要利用動態(tài)時間規(guī)整(DTW)方法與特定短語模板后驗圖匹配;Dey等[26]則嘗試在在基于DNN和i-vector框架下通過DTW引用序列信息,來提升文本相關(guān)短語音說話人確認(rèn)性能。

    歸一化方法主要用于補償訓(xùn)練、注冊及測試過程中語音時長不匹配造成的影響。Hautamäki等人[12]提出基于minimax策略提取i-vector向量以表征說話人,在使用EM算法提取Baum-Welch統(tǒng)計量時引入minimax方法幫助模型獲取更加魯棒的i-vector;2014年,Kanagasundaram等[27][28]發(fā)現(xiàn)模型估計同一說話人多條短語音的i-vectors有明顯差異,他們假設(shè)這種差異來源于i-vectors所包含的不一致的音素信息,因為短語音中包含的詞匯少、覆蓋的音素少,因此包含的說話人信息有限,在該假設(shè)的基礎(chǔ)上,他們提出短語音方差規(guī)整(Shortutterancevariancenormalization,SUVN)的方法來補償失配音素內(nèi)容。Hasan等[29]在統(tǒng)計時長和音素數(shù)量的關(guān)系時發(fā)現(xiàn),當(dāng)語音時長變短時,一句話中可檢測到的音素數(shù)量呈指數(shù)趨勢下降,基于這個發(fā)現(xiàn),他們將時長差異視為i-vector空間的噪聲,并對其建模,提高了說話人確認(rèn)系統(tǒng)在短語音條件下的性能。

    2013年后基于深度學(xué)習(xí)的方法也被引入,在DNN框架下,Snyder等人[30]利用時序池化層(temporalpoolinglayer)處理變長語音輸入;長時說話人確認(rèn)中語音的i-vectors還可以學(xué)習(xí)到短語音下的音素內(nèi)容差異[29],受此啟發(fā),Hong等[31]將遷移學(xué)習(xí)(transferlearning)的方法引入短語音說話人確認(rèn)系統(tǒng)中,從長時語音訓(xùn)練的模型域?qū)W習(xí)說話人區(qū)分性信息,并將KL正則化項加入到后端PLDA目標(biāo)函數(shù)中,來度量源域和目標(biāo)域的相似度,實驗結(jié)果顯示該方法有助于提升i-vector-PLDA框架下的短語音說話人確認(rèn)性能。

3.3基于i-vector和PLDA的說話人確認(rèn)算法

    2011年,Dehak在實驗中發(fā)現(xiàn),JFA算法[32]假設(shè)本征信道空間是利用說話人無關(guān)的信道信息估計得到,但實際中部分說話人相關(guān)的信息也會泄露至本征信道空間之中,即JFA算法雖然假設(shè)利用本征音空間和本征信道空間來區(qū)分說話人信息和信道信息,但是無法有效分離兩個空間。因此,Dehak不劃分征音信道空間和本征音空間,并使用一個全局差異(TotalVariability)空間來統(tǒng)一描述說話人信息和信道信息,并一個全局差異因子(i-vector)描述說話人因子和信道因子[4]。在i-vector說話人確認(rèn)系統(tǒng)中,說話人超矢量被分解為:

    公式中m表示非特定說話人的超矢量;?是低秩的全局差異空間;?是全局差異因子,也稱為身份矢量,即i-vector。

    在i-vector方法中,說話人信息和信道信息都包含在全局差異空間中,為了提高i-vector對說話人表征的準(zhǔn)確度,需要引入信道補償技術(shù)來進一步消除信道因子的影響,因此,引入PLDA[33]對i-vector做進一步的因子分析,即將i-vector空間進一步分解為說話人空間和信道空間,具體分解如下:

    其中,?表示說話人的語音;?是所有訓(xùn)練i-vector的均值;?表示說話人空間矩陣,描述說話人相關(guān)特征;?是說話人因子;?是信道空間矩陣,描述同一說話人不同語音之間的差異;?是信道因子;?為噪聲因子。此外,?和?滿足?(0,1)分布。在測試階段,通過對數(shù)似然比來判斷兩條語音是否由同一說話人空間的特征生成,其公式如下:

    其中ω1,ω2分別為注冊和測試階段的說話人i-vector向量,H0假設(shè)兩段語音屬于不同說話人,H1假設(shè)兩段語音屬于同一個說話人。

4  基于深度學(xué)習(xí)的時說話人確認(rèn)主流技術(shù)

    2013年前,主流的說話人確認(rèn)技術(shù)都是基于統(tǒng)計模型方法。隨著深度學(xué)習(xí)方法在語音識別,圖像處理等領(lǐng)域取得突破性進展,學(xué)者們開始研究基于深度學(xué)習(xí)的說話人確認(rèn)技術(shù)。其中主要分支包括:基于深度網(wǎng)絡(luò)特征學(xué)習(xí)的說話人確認(rèn)方法,基于度量學(xué)習(xí)的說話人確認(rèn)方法,基于多任務(wù)學(xué)習(xí)的說話人確認(rèn)方法和端到端的說話人確認(rèn)方法。

4.1基于深度網(wǎng)絡(luò)特征提取的方法

    基于深度網(wǎng)絡(luò)的特征學(xué)習(xí)方法,利用復(fù)雜非線性結(jié)構(gòu)賦予的特征提取能力,能自動對輸入的語音信號進行特征分析,提取出更高層、更抽象的說話人表征。

    2014年,谷歌的研究員Ehsan等人[34]提出了基于DNN(DeepNeuralNetworks,DNN)結(jié)構(gòu)的說話人確認(rèn)算法,選取最后一層隱藏層激活后的輸出作為說話人幀級別特征(frame-levelfeatures);一段語音所有幀級別特征取平均后得到該段語音的句子級特征(utterance-levelfeatures),稱之為d-vector;2015年,Chen等人[35]發(fā)現(xiàn)輸入層到DNN第一個隱藏層間存在權(quán)值矩陣過大的問題,將其可視化后,發(fā)現(xiàn)存在大量的零值,而非零權(quán)值則存在聚集效應(yīng),針對這一問題,提出了使用局部連接和卷積網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)代替全連接的方法,新網(wǎng)絡(luò)的參數(shù)量下降了30%,且性能僅有4%的損失,此外,在同樣多的參數(shù)情況下,新網(wǎng)絡(luò)的EER分別提高了8%和10%;2017年,清華大學(xué)的Wang[36]提出了一種CNN和TDNN混合的特征提取網(wǎng)絡(luò),輸入為語譜圖,輸出則是具有可分性的說話人表征,由于通過語譜圖可以直接獲取句子級別的特征,因此網(wǎng)絡(luò)性能具有較大的提升。2018年,Li等人[37]發(fā)現(xiàn)在基于DNN的特征傳統(tǒng)提取結(jié)構(gòu)中,由于使用了含有參數(shù)的softmax層,可能導(dǎo)致部分說話人信息“泄漏”到了隱層與softmax層連接的權(quán)重參數(shù)中,導(dǎo)致由最后一層網(wǎng)絡(luò)節(jié)點所表示的深度特征不完備,進而使得準(zhǔn)確率較低,因此作者改進了損失函數(shù),使得新的損失函數(shù)不含額外參數(shù),說話人全部信息表征均在網(wǎng)絡(luò)最后一層輸出;同年約翰斯霍普金斯大學(xué)的Povey[30],提出基于DNN的x-vector說話人確認(rèn)系統(tǒng),該系統(tǒng)將語音特征提取過程分為幀級(frame-level)和段級(segment-level),并使用統(tǒng)計池化層連接兩級特征。同年P(guān)ovey[38]發(fā)現(xiàn)使用數(shù)據(jù)增強,在原始語音數(shù)據(jù)中以一定比例加入噪聲、混響、人聲等干擾因素,使得網(wǎng)絡(luò)能夠從帶噪數(shù)據(jù)中提煉出有效信息,進而提高說話人確認(rèn)系統(tǒng)的性能。

4.2基于度量學(xué)習(xí)的方法

    基于度量學(xué)習(xí)的方法著眼于設(shè)計更適合說話人確認(rèn)任務(wù)的目標(biāo)函數(shù),使得特征提取網(wǎng)絡(luò)通過新的目標(biāo)函數(shù)能學(xué)習(xí)到具有較小類內(nèi)距離、較大類類距離的特征。

    2017年,百度提出了DeepSpeaker[39]系統(tǒng),其使用人臉識別中廣泛應(yīng)用的tripletloss作為損失函數(shù),模型訓(xùn)練時先提取同一說話人兩段語音的表征,再提取不同說話人語音的表征,目標(biāo)是令同一說話人表征之間的余弦相似度高于不同說話人之間的余弦相似度。在文本無關(guān)的數(shù)據(jù)上,EER相比基于DNN的方法降低了50%;2018年,紐約大學(xué)的Salehghaffari[40]提出了使用Simaese結(jié)構(gòu),即使用contrastiveloss作為損失函數(shù),其設(shè)計的基于CNN的說話人確認(rèn)網(wǎng)絡(luò)較i-vector系統(tǒng)降低了近10%的EER。

4.3基于多任務(wù)學(xué)習(xí)的方法

    由于不同語音任務(wù)之間存在一定的相似性(如關(guān)鍵詞檢測與說話人確認(rèn),語音分離與語音增強),研究者們嘗 試通過在相關(guān)任務(wù)中共享信息,使得模型在說話人確認(rèn)任務(wù)上具有更好的泛化能力,進而提高說話人確認(rèn)系統(tǒng)的泛化能力。

    2018年清華大學(xué)的Ding等人[41]將圖像生成領(lǐng)域中的TripletGAN遷移到了說話人確認(rèn)領(lǐng)域,運用多任務(wù)學(xué)習(xí)的思想讓網(wǎng)絡(luò)同時進行說話人確認(rèn)和語音合成兩個任務(wù),使用生成對抗網(wǎng)絡(luò)(GenerativeAdversarialNetworks,GAN)作為數(shù)據(jù)生成器,生成更多的語音數(shù)據(jù)作為說話人確認(rèn)網(wǎng)絡(luò)的輸入,使其學(xué)習(xí)到更具泛化能力的說話人表征,相比tripletloss網(wǎng)絡(luò)性能有較大的提升;同年,Novoselov等人[42],將說話人確認(rèn)任務(wù)和數(shù)字識別任務(wù)相結(jié)合,使得網(wǎng)絡(luò)最后一層同時輸出說話人辨認(rèn)和語音數(shù)字識別結(jié)果,在RSR2015數(shù)據(jù)庫上其相比基準(zhǔn)算法有近50%的提升;Dey等人[43]則通過數(shù)字辨認(rèn)和說話人確認(rèn)的多任務(wù)學(xué)習(xí),使網(wǎng)絡(luò)能聯(lián)合優(yōu)化各個問題,并采用tripletloss作為目標(biāo)函數(shù),在RSR數(shù)據(jù)庫上較i-vector方法提升了43%。

4.4端到端的說話人確認(rèn)

    端到端的說話人確認(rèn)系統(tǒng),輸入為不同說話人的語音信號,輸出即為說話人確認(rèn)結(jié)果。端到端的網(wǎng)絡(luò)通常包含大量參數(shù),相比其它基于深度學(xué)習(xí)的說話人確認(rèn)方法需要較多的訓(xùn)練與測試數(shù)據(jù)。

    2016年,Google的Heigold等人[44]提出了端到端說話人確認(rèn)系統(tǒng),其包含兩個網(wǎng)絡(luò):預(yù)先訓(xùn)練好的特征提取網(wǎng)絡(luò)和用于決策打分的判決網(wǎng)絡(luò)。訓(xùn)練階段,首先利用預(yù)訓(xùn)練的特征提取網(wǎng)絡(luò)獲取語音幀級特征,取平均后得到句子級別特征并與其它語句提取出的特征計算余弦相似度;然后將相似度輸入邏輯回歸層中,其中僅包含權(quán)重變量和偏置變量兩個標(biāo)量參數(shù),最終邏輯回歸層輸出是否為同一說話人;注冊階段,獲取輸入語音的特征,再次訓(xùn)練整個網(wǎng)絡(luò),訓(xùn)練中僅改變邏輯回歸層的偏置參數(shù),其他參數(shù)保持不變;驗證階段,輸入待驗證的語音,邏輯回歸層直接輸出判決結(jié)果。2016年微軟的Zhang[45]發(fā)現(xiàn)靜音幀信號對句級別特征的多余貢獻會弱化其表征能力,因此提出使用注意力機制,引入兩個預(yù)訓(xùn)練網(wǎng)絡(luò),一個用于獲取每一幀語音的音素特征,另一個則判斷當(dāng)前詞是否為三音素組,結(jié)合兩個網(wǎng)絡(luò)輸出賦予每一幀信號不同權(quán)重,加權(quán)合成句級別特征。2017年Google的Chowdhury改進了注意力機制[46],權(quán)重的獲取不再依賴預(yù)先訓(xùn)練的輔助網(wǎng)絡(luò),而是直接對幀級別特征進行非線性變換學(xué)習(xí)權(quán)重參數(shù),這樣極大地減少了網(wǎng)絡(luò)的復(fù)雜程度;Google的Li[47]提出用領(lǐng)域自適應(yīng)的方法,在端到端的說話人確認(rèn)任務(wù)中利用大語料數(shù)據(jù)集輔助小語料數(shù)據(jù)集,同時針對文本相關(guān)和文本無關(guān)兩種場景分別設(shè)計了兩類不同的損失函數(shù),使得網(wǎng)絡(luò)訓(xùn)練時間減少了60%,準(zhǔn)確率提高了10%。

5  總結(jié)與展望

    本文重點介紹了面向智能語音控制場景下的短語音說話人確認(rèn)技術(shù),綜述了基本概念,分析了短語音說話人確認(rèn)技術(shù)面臨的挑戰(zhàn),并從特征提取和短語音建模兩個角度介紹了主流方法,最后介紹了基于深度學(xué)習(xí)的說話人確認(rèn)技術(shù)發(fā)展現(xiàn)狀。

    相比于基于傳統(tǒng)機器學(xué)習(xí)的說話人確認(rèn)技術(shù),基于深度學(xué)習(xí)的短語音說話人確認(rèn)技術(shù)性能更佳,這得益于深度網(wǎng)絡(luò)具有強大的特征提取能力。但是,我們也看到,基于深度學(xué)習(xí)的方法需要大量的標(biāo)注訓(xùn)練語音數(shù)據(jù)進行模型訓(xùn)練,這限制了基于深度學(xué)習(xí)的說話人確認(rèn)模型的泛化以及應(yīng)用推廣。因此采用遷移學(xué)習(xí)方法將基于大語料數(shù)據(jù)庫訓(xùn)練獲得的說話人模型遷移到基于小語料數(shù)據(jù)庫的說話人模型、有效地提取短語音中更具區(qū)分性的特征以及設(shè)計更適合短語音說話人確認(rèn)任務(wù)的目標(biāo)函數(shù)等是未來重點的研究方向。

參考文獻

[1]HansenJHL,HasanT.SpeakerRecognitionbyMachinesandHumans:Atutorialreview[J].IEEESignalProcessingMagazine,2015,32(6):74-99.

[2]鄭方,李藍天,張慧,等.聲紋識別技術(shù)及其應(yīng)用現(xiàn)狀[J].信息安全研究,2016,2(1):44-57.

[3]SchefferN,FerrerL,GraciarenaM,etal.TheSRINIST2010speakerrecognitionevaluationsystem[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2011:5292-5295.

[4]DehakN,KennyPJ,DehakR,etal.Front-EndFactorAnalysisforSpeakerVerification[J].IEEETransactionsonAudioSpeech&LanguageProcessing,2011,19(4):788-798.

[5]MarkelJ,OshikaB,GrayA.Long-termfeatureaveragingforspeakerrecognition[J].IEEETransactionsonAcousticsSpeech&SignalProcessing,1977,25(4):330-337.

[6]K.Li,E.Wrench.Anapproachtotext-independentspeakerrecognitionwithshortutterances[C]//Acoustics,Speech,andSignalProcessing,IEEEInternationalConferenceonICASSP.IEEE,1983:555-558.

[7]ReynoldsDA,QuatieriTF,DunnRB.SpeakerVerificationUsingAdaptedGaussianMixtureModels[C]//DigitalSignalProcessing.2000:19–41.

[8]KennyP.Bayesianspeakerverificationwithheavytailedpriors[C]//Proc.OdysseySpeakerandLanguageRecogntionWorkshop,Brno,CzechRepublic.2010.

[9]PoddarA,SahidullahM,SahaG.Speakerverificationwithshortutterances:areviewofchallenges,trendsandopportunities[J].IetBiometrics,2018,7(2):91-101.

[10]LarcherA,KongAL,MaB,etal.Text-dependentspeakerverification:Classifiers,databasesandRSR2015[J].SpeechCommunication,2014,60(3):56-77.

[11]DasRK,PrasannaSRM.SpeakerVerificationfromShortUtterancePerspective:AReview[J].IeteTechnicalReview,2017(1):1-19.

[12]V.Hautamäki,Y.-C.Cheng,P.Rajan,etal.Minimaxi-vectorextractorforshortdurationspeakerverification[J].2013.

[13]PoorjamAH,SaeidiR,KinnunenT,etal.IncorporatinguncertaintyasaQualityMeasureinI-VectorBasedLanguageRecognition[C]//TheSpeakerandLanguageRecognitionWorkshop.2016.

[14]KanagasundaramA,VogtR,DeanD,etal.i-vectorBasedSpeakerRecognitiononShortUtterances[C]//INTERSPEECH.DBLP,2011.

[15]HosseinzadehD,KrishnanS.OntheUseofComplementarySpectralFeaturesforSpeakerRecognition[J].EurasipJournalonAdvancesinSignalProcessing,2007,2008(1):1-10.

[16]MakhoulJ.Linearprediction:atutorialreview.ProcIEEE63:561-580[J].ProceedingsoftheIEEE,1975,63(4):561-580.

[17]HermanskyH.Perceptuallinearpredictive(PLP)analysisofspeech.[J].JournaloftheAcousticalSocietyofAmerica,1990,87(4):1738-1752.

[18]HuangX,AceroA.SpokenLanguageProcessing:AGuidetoTheory,Algorithm,andSystemDevelopment[M].PrenticeHallPTR,2001.

[19]TodiscoM,DelgadoH,EvansN.ArticulationratefilteringofCQCCfeaturesforautomaticspeakerverification[C]//INTERSPEECH.2018.

[20]LeungKY,MakMW,SiuMH,etal.Adaptivearticulatoryfeature-basedconditionalpronunciationmodelingforspeakerverification[J].SpeechCommunication,2006,48(1):71-84.

[21]KennyP,GuptaV,StafylakisT,etal.DeepneuralnetworksforextractingBaum-Welchstatisticsforspeakerrecognition[C]//Odyssey.2014.

[22]FuT,QianY,LiuY,etal.Tandemdeepfeaturesfortext-dependentspeakerverification[C]//ConferenceoftheInternationalSpeechCommunicationAssociation.InternationalSpeechCommunicationAssociation(ISCA),2014:747-753.

[23]SainathTN,KingsburyB,RamabhadranB.Auto-encoderbottleneckfeaturesusingdeepbeliefnetworks[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2012:4153-4156.

[24]KennyP,StafylakisT,OuelletP,etal.PLDAforspeakerverificationwithutterancesofarbitraryduration[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2013:7649-7653.

[25]JelilS,DasRK,SinhaR,etal.SpeakerVerificationUsingGaussianPosteriorgramsonFixedPhraseShortUtterances[C]//INTERSPEECH.2015.

[26]DeyS,MotlicekP,MadikeriS,etal.Exploitingsequenceinformationfortext-dependentSpeakerVerification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2017:5370-5374.

[27]KanagasundaramA,DeanD,Gonzalez-DominguezJ,etal.ImprovingShortUtterancebasedI-vectorSpeakerRecognitionusingSourceandUtterance-DurationNormalizationTechniques[C]//Proceed.ofINTERSPEECH.2013:3395-3400.

[28]KanagasundaramA,DeanD,SridharanS,etal.Improvingshortutterancei-vectorspeakerverificationusingutterancevariancemodellingandcompensationtechniques[J].SpeechCommunication,2014,59(2):69-82.

[29]HasanT,SaeidiR,HansenJHL,etal.Durationmismatchcompensationfori-vectorbasedspeakerrecognitionsystems[J].2013:7663-7667.

[30]SnyderD,GhahremaniP,PoveyD,etal.Deepneuralnetwork-basedspeakerembeddingsforend-to-endspeakerverification[C]//SpokenLanguageTechnologyWorkshop.IEEE,2017:165-170.

[31]HongQ,LiL,WanL,etal.TransferLearningforSpeakerVerificationonShortUtterances[C]//INTERSPEECH.2016:1848-1852.

[32]KennyP.Jointfactoranalysisofspeakerandsessionvariability:Theoryandalgorithms[J].2005.

[33]SenoussaouiM,KennyP,BrümmerN,etal.MixtureofPLDAModelsini-vectorSpaceforGender-IndependentSpeakerRecognition[C]//INTERSPEECH2011,ConferenceoftheInternationalSpeechCommunicationAssociation,Florence,Italy,August.DBLP,2011:25-28.

[34]VarianiE,LeiX,McdermottE,etal.Deepneuralnetworksforsmallfootprinttext-dependentspeakerverification[C]//IEEEInternationalConferenceonAcoustics,SpeechandSignalProcessing.IEEE,2014:4052-4056.

[35]ChenY,Lopez-MorenoI,SainathTN,etal.Locally-connectedandconvolutionalneuralnetworksforsmallfootprintspeakerrecognition[C]//SixteenthAnnualConferenceoftheInternationalSpeechCommunicationAssociation.2015.

[36]LiL,ChenY,ShiY,etal.DeepSpeakerFeatureLearningforText-independentSpeakerVerification[J].2017:1542-1546.

[37]LiL,TangZ,WangD,etal.Full-infoTrainingforDeepSpeakerFeatureLearning[J].2018.

[38]SnyderD,Garcia-RomeroD,SellG,etal.X-vectors:RobustDNNembeddingsforspeakerrecognition[J].ICASSP,Calgary,2018.

[39]LiC,MaX,JiangB,etal.DeepSpeaker:anEnd-to-EndNeuralSpeakerEmbeddingSystem[J].2017.

[40]HosseinSalehghaffari,etal.SpeakerVeri?cationusingConvolutionalNeuralNetworks[J].2018

[41]DingW,HeL.MTGAN:SpeakerVerificationthroughMultitaskingTripletGenerativeAdversarialNetworks[J].2018.

[42]NovoselovS,KudashevO,SchemelininV,etal.DeepCNNbasedfeatureextractorfortext-promptedspeakerrecognition[J].2018.

[43]SDey,TKoshinaka,PMotlicek,SMadikeri,etal,DNNbasedspeakerembeddingusingcontentinformationfortext-dependentspeakerverification[J].2018

[44]HeigoldG,MorenoI,BengioS,etal.End-to-endtext-dependentspeakerverification[C]//Acoustics,SpeechandSignalProcessing(ICASSP),2016IEEEInternationalConferenceon.IEEE,2016:5115-5119.

[45]ZhangSX,ChenZ,ZhaoY,etal.End-to-endattentionbasedtext-dependentspeakerverification[C]//SpokenLanguageTechnologyWorkshop(SLT),2016IEEE.IEEE,2016:171-178.

[46]ChowdhuryFA,WangQ,MorenoIL,etal.Attention-BasedModelsforText-DependentSpeakerVerification[J].arXivpreprintarXiv:1710.10470,2017.

[47]WanL,WangQ,PapirA,etal.Generalizedend-to-endlossforspeakerverification[J].arXivpreprintarXiv:1710.10467,2017.

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運動控制

關(guān)注伺服與運動控制公眾號獲取更多資訊

直驅(qū)與傳動

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

中國傳動網(wǎng)

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

2018年第四期

2018年第四期

圖片閱讀

掃碼關(guān)注小程序

時刻關(guān)注行業(yè)動態(tài)

雜志訂閱

填寫郵件地址,訂閱更多資訊:

撥打電話咨詢:13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運動控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運動控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運動控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運動控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運動控制

    2023年第1期