技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 應(yīng)用方案 > 智能語音增強(qiáng)助聽設(shè)備:基于機(jī)器學(xué)習(xí)的研究進(jìn)展

智能語音增強(qiáng)助聽設(shè)備:基于機(jī)器學(xué)習(xí)的研究進(jìn)展

時(shí)間:2018-07-06 14:46:09來源:南方科技大學(xué) 葉富強(qiáng) 陳霏

導(dǎo)語:?據(jù)世界衛(wèi)生組織估計(jì),約15%的成年人(約7.66億人)有一定程度的聽力受損,并且隨著世界人口的擴(kuò)張和人口老齡化,這一數(shù)字還將持續(xù)上升。對(duì)更高級(jí)的智能助聽設(shè)備的市場需求將會(huì)越來越大,智能助聽設(shè)備的潛在市場不僅僅局限于聽力受損人群,技術(shù)人員還可以將該技術(shù)應(yīng)用到人機(jī)語音交互、復(fù)雜聲場環(huán)境下的言語交流等方面。

引言

據(jù)世界衛(wèi)生組織估計(jì),約15%的成年人(約7.66億人)有一定程度的聽力受損,并且隨著世界人口的擴(kuò)張和人口老齡化,這一數(shù)字還將持續(xù)上升。對(duì)更高級(jí)的智能助聽設(shè)備的市場需求將會(huì)越來越大,智能助聽設(shè)備的潛在市場不僅僅局限于聽力受損人群,技術(shù)人員還可以將該技術(shù)應(yīng)用到人機(jī)語音交互、復(fù)雜聲場環(huán)境下的言語交流等方面。

近150年以來,技術(shù)的不斷變革在不斷改善助聽設(shè)備的性能。早期的通話管(1880年)完全依靠對(duì)聲音的放大處理。到了1900年,第一臺(tái)電助聽設(shè)備誕生,它通過碳膜來放大聲音。1921年,根據(jù)使用者聽力損失類型的不同,出現(xiàn)使用真空管的助聽設(shè)備。隨著晶體管的出現(xiàn),1952年第一臺(tái)耳背式助聽器誕生。20世紀(jì)80年代,針對(duì)聽力受損嚴(yán)重患者,具有臨床意義的電子人工耳蝸面世。上世紀(jì)90年代以來,將聲波信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的數(shù)字助聽設(shè)備成為主流,如今的助聽設(shè)備數(shù)字信號(hào)處理能力強(qiáng)大,對(duì)聲音進(jìn)行放大前還需做語音增強(qiáng)以去除背景噪聲,以進(jìn)一步提高助聽設(shè)備的性能。

如何進(jìn)行語音增強(qiáng)實(shí)現(xiàn)降噪成為目前提高助聽設(shè)備性能的一大技術(shù)挑戰(zhàn)。語音增強(qiáng)包括語音降噪、語音分離和語音去混響等,其目的都是改進(jìn)語音質(zhì)量,消除背景噪聲。本調(diào)研文章介紹的語音增強(qiáng)主要為語音降噪技術(shù),將主要介紹兩種基于機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)助聽設(shè)備的智能化語音增強(qiáng)。

傳統(tǒng)的語音降噪技術(shù)

長期以來,許多研究人員致力于研究語音降噪技術(shù),這些降噪技術(shù)可以分為兩類:多麥克風(fēng)陣列和單麥克風(fēng)框架。當(dāng)目標(biāo)語音和噪聲在空間上可分離時(shí),多麥克風(fēng)陣列降噪方法的優(yōu)勢明顯[1]。然而,在混響環(huán)境中,多麥克風(fēng)的降噪方法的性能降低,并且它的應(yīng)用通常局限于目標(biāo)語音和噪聲源空間可分離的聲場[2]。因?yàn)楦郊拥柠溈孙L(fēng)增加了設(shè)備費(fèi)用和計(jì)算成本,因此,與多麥克風(fēng)的降噪方法相比,單麥克風(fēng)降噪方法更具經(jīng)濟(jì)優(yōu)勢。因此,研究人員提出了多種單麥克風(fēng)降噪技術(shù),例如INTEL[3-4]、對(duì)數(shù)最小均方誤差(logMMSE)[5]、基于先驗(yàn)信噪比估計(jì)的維納濾波器(Wiener)[6]、KLT[7-9]、ClearVoice[10]、基于信噪比的降噪方法[11]和廣義最大后驗(yàn)頻譜振幅[12]等。這些降噪方法大都是基于對(duì)語音和噪聲信號(hào)的統(tǒng)計(jì)學(xué)分析而提出的[13]。另一種流行的傳統(tǒng)降噪方法是使用端點(diǎn)檢測器識(shí)別人說話的停頓間隙,將此指定為噪聲,然后將其從帶噪語音中“減去”獲得降噪后的語音。這種降噪方法也被稱為譜減法,但是它通常對(duì)噪聲抑制太少或者消除太多噪聲,以至于將目標(biāo)語音也消除了,這也就帶來了聽起來有韻律感的音樂噪聲,使得降噪后的語音質(zhì)量下降。

Chen等人在2015年招募人工耳蝸植入者作為被試者,對(duì)幾種單麥克風(fēng)降噪方法效果進(jìn)行了評(píng)估,發(fā)現(xiàn)大多數(shù)降噪方法在噪聲條件下有效提高了人工耳蝸植入者的語音識(shí)別率。但是,這些方法在不同噪聲條件下表現(xiàn)不一。傳統(tǒng)的單麥克風(fēng)降噪方法在穩(wěn)定噪聲條件下給人工耳蝸植入者的語音識(shí)別帶來顯著改善,但在具挑戰(zhàn)性噪聲條件下(例如當(dāng)競爭信號(hào)是語音信號(hào)[14]或快變?cè)肼昜15]),仍然有很大的性能改善空間。基于機(jī)器學(xué)習(xí)的降噪方法在具挑戰(zhàn)性的噪聲條件下很好地彌補(bǔ)了傳統(tǒng)降噪方法的短板。

基于噪聲分類器+深度降噪自編碼器的降噪方法

Lu等人2013年提出了一種基于深度降噪自編碼器(DDAE)的降噪方法,該方法將降噪轉(zhuǎn)換成非線性編碼-解碼任務(wù),以此來映射噪聲信號(hào)和干凈語音信號(hào)之間的特征。Lu等人發(fā)現(xiàn),針對(duì)常見噪聲進(jìn)行降噪,使用多種標(biāo)準(zhǔn)化客觀評(píng)估,DDAE降噪方法的性能優(yōu)于傳統(tǒng)單麥克風(fēng)降噪方法[16]。2017年,Lai等人評(píng)估了非匹配DDAE模型(即訓(xùn)練和測試階段使用不同類型的噪聲)對(duì)使用聲碼器生成的語音降噪效果??陀^評(píng)估和主觀聽力測試的結(jié)果均表明,在非平穩(wěn)噪聲條件下,DDAE降噪方法處理后的語音可懂度高于傳統(tǒng)降噪方法。非匹配的DDAE模型已經(jīng)可以提供較好的降噪效果[17],但是只有當(dāng)測試集和訓(xùn)練集噪聲類型相同時(shí)(即匹配的DDAE模型),DDAE降噪效果才能達(dá)到最佳。因此,Lai等人于2018年提出了一種新的降噪方法,即采用額外的噪聲分類器(以下簡稱NC)模塊,來進(jìn)一步提高基于DDAE降噪方法的性能。我們稱之為NC+DDAE降噪方法。

NC+DDAE降噪系統(tǒng)的細(xì)節(jié)框圖[18]可參考圖2。當(dāng)給定帶噪語音信號(hào)時(shí),NC模塊首先確定噪聲類型并選擇最合適的DDAE模型來執(zhí)行降噪。在DDAE模塊中,設(shè)計(jì)了多個(gè)噪聲相關(guān)DDAE(noise-dependentDDAE,ND-DDAE)模型和一個(gè)與噪聲無關(guān)的DDAE(noise-independentDDAE,NI-DDAE)模型。每個(gè)ND-DDAE都是根據(jù)某一特定類型的噪聲進(jìn)行訓(xùn)練的,而NI-DDAE則是針對(duì)多種噪聲類型進(jìn)行訓(xùn)練的。下面將分別介紹NC和DDAE模塊。

基于深度神經(jīng)網(wǎng)絡(luò)的噪聲分類器模塊

NC模塊是基于深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,DNN)模型構(gòu)建的。DNN模型是在輸入層和輸出層之間具有許多隱藏層的前饋人工神經(jīng)網(wǎng)絡(luò)。如圖2上半部分所示,使用梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficients,MFCC)[19-20]作為NC模塊的聲學(xué)特征。MFCC廣泛應(yīng)用于各種聲學(xué)模式分類任務(wù),如音樂分類[21]和自動(dòng)聽診[22]。MFCC特征提取過程包括六個(gè)步驟:(1)預(yù)加重:補(bǔ)償在人類發(fā)聲過程中被抑制的高頻部分;(2)加窗:給定信號(hào)被分成一系列的幀;(3)快速傅立葉變換:獲得每幀的頻譜響應(yīng)以進(jìn)行頻譜分析;(4)梅爾濾波:將梅爾濾波帶的頻率成分整合為單能量強(qiáng)度;(5)非線性變換:該變換取所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)形式;(6)離散余弦變換:將所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)轉(zhuǎn)換成MFCC。研究表明,39維MFCC(13維原始MFCC+13維一階MFCC+13維二階MFCC)可以更精確地表征聲學(xué)模式,從而產(chǎn)生更好的識(shí)別性能[23-24]。

在NC模塊中,這里進(jìn)一步采用置信度(ConfidenceMeasure,CM)[25]來評(píng)估識(shí)別結(jié)果的可靠性。CM分?jǐn)?shù)表示我們可以相信識(shí)別結(jié)果的程度:分?jǐn)?shù)越高表示對(duì)識(shí)別輸出的置信度越高,反之亦然。計(jì)算完CM分?jǐn)?shù)之后,定義一個(gè)閾值以對(duì)結(jié)果中的置信度分類。如前所述,NC模塊的目標(biāo)是確定噪聲類型,然后根據(jù)噪聲類型來選擇最合適的DDAE模型來執(zhí)行降噪。因此,如果所確定的噪聲類型的CM評(píng)分高于閾值,則選擇相應(yīng)的ND-DDAE模型來執(zhí)行降噪;另一方面,如果CM評(píng)分低于閾值,則直接使用NI-DDAE模型來執(zhí)行降噪。

基于深度降噪自編碼器的降噪模塊

DDAE降噪模塊的結(jié)構(gòu)如圖2下半部分所示。DDAE是一種有監(jiān)督的降噪方法,基于DNN的架構(gòu),得到帶噪語音信號(hào)和干凈語音信號(hào)之間的映射函數(shù)。DDAE降噪方法有兩個(gè)階段:訓(xùn)練和測試階段。在訓(xùn)練階段,準(zhǔn)備好一系列帶噪和相應(yīng)的干凈語音信號(hào)對(duì);在訓(xùn)練階段,帶噪-干凈語音信號(hào)對(duì)首先轉(zhuǎn)換為對(duì)數(shù)功率譜特征(LogPowerSpectra,LPS),LPS特征通常用在基于DNN降噪方法中[15,26]。對(duì)輸入信號(hào)進(jìn)行短時(shí)傅里葉分析,計(jì)算每個(gè)重疊加窗幀的離散傅里葉變換,從而獲得LPS譜。

如圖2所示,一共準(zhǔn)備N個(gè)ND-DDAE模型(例如ND-DDAE_1至ND-DDAE_N)和一個(gè)NI-DDAE模型。一共N+1個(gè)模型都在訓(xùn)練階段訓(xùn)練好。值得注意的是,每個(gè)ND-DDAE模型都是在某一特定噪聲類型下訓(xùn)練,因此在這一特定噪聲類型條件下,模型可以更準(zhǔn)確地表征帶噪語音信號(hào)轉(zhuǎn)換到對(duì)應(yīng)干凈語音信號(hào)的特征。另外,NI-DDAE模型由多種類型的噪聲訓(xùn)練,因此在特定噪聲類型條件下降噪,它的表征能力不如ND-DDAE。但是,因?yàn)镹I-DDAE模型由多種類型噪聲訓(xùn)練,它對(duì)新出現(xiàn)的噪聲類型降噪效果會(huì)較好。這里提出的NC+DDAE降噪方法可以總結(jié)如下:(1)當(dāng)測試噪聲類型被包含在訓(xùn)練集中,系統(tǒng)選擇最恰當(dāng)?shù)腘D-DDAE模型進(jìn)行降噪(即匹配的DDAE模型);(2)當(dāng)測試噪聲不被包含在訓(xùn)練集中,NI-DDAE模型用來降噪(即非匹配的DDAE模型),它對(duì)不同類型噪聲的泛化能力較好。

效果評(píng)測

為了測試NC+DDAE降噪方法的效果,研究采用歸一化協(xié)方差度量(NormalizedCovarianceMeasure,NCM)[27]來客觀評(píng)估降噪后的語音的可懂度,并招募了9名說普通話的人工耳植入者進(jìn)行臨床聽力測試,使用詞正確率(WordCorrectRate,WCR)[17,28-31]作為評(píng)估指標(biāo)。測試過程采用雙人交流噪聲和建筑手提鉆噪聲,信噪比等級(jí)分別設(shè)置為0和5dB。NCM評(píng)分和WCR評(píng)分都表明,NC+DDAE降噪方法相比于傳統(tǒng)單麥克風(fēng)降噪方法和DDAE降噪方法,降噪效果有顯著性提升。

與傳統(tǒng)的降噪技術(shù)相比,NC+DDAE降噪方法可以被視為只需數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法。這種降噪方法學(xué)習(xí)從帶噪語音信號(hào)到干凈語音信號(hào)的映射函數(shù),而不會(huì)強(qiáng)加任何假設(shè)。再基于NC+DDAE模型的映射函數(shù),不使用任何噪聲估計(jì)算法,將帶噪語音直接轉(zhuǎn)換為干凈的語音。因此,即使在處理困難的,競爭性噪聲或信噪比0dB時(shí),NC+DDAE降噪后的語音可懂度也比傳統(tǒng)降噪方法高。

基于深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽的降噪方法

1990年,來自加拿大蒙特利爾麥吉爾大學(xué)的心理學(xué)家AlbertBregman,提出人類聽覺系統(tǒng)將聲音分成不同的聲音流,例如,幾個(gè)朋友一邊聊天一邊放著音樂,這就構(gòu)成了所謂的聽覺場景。聽覺場景中每個(gè)聲音流的音調(diào)、響度和方向都是不同的。如果兩個(gè)聲音在同一時(shí)間共享了同一頻段,響度高的聲音流壓倒響度較低的,這就是聽覺掩蔽原理,譬如,屋外的雨打在窗戶上發(fā)出“滴答滴答”的聲音,人可能就不會(huì)注意到屋內(nèi)掛鐘的滴答聲。

基于上述提到的原理,來自美國俄亥俄州立大學(xué)的WangDeliang提出了理想二值掩蔽方法[32],在一個(gè)特定頻段內(nèi)的一個(gè)特定短暫間隔(或時(shí)頻單元),理想二值掩蔽濾波器分析帶噪語音的每個(gè)時(shí)頻單元,并將每個(gè)時(shí)頻單元標(biāo)記為“0”或者“1”,如果目標(biāo)語音強(qiáng)于噪聲,標(biāo)記為1,反之標(biāo)記為0。然后濾波器拋棄標(biāo)記為0的單元,利用標(biāo)記為1的時(shí)頻單元重建語音。理想二值掩蔽極大改善了聽力障礙者的語音理解能力,但是這里的理想二值掩蔽是停留在實(shí)驗(yàn)室層面的,實(shí)驗(yàn)設(shè)計(jì)將語音和噪聲混合,濾波器是知道什么時(shí)候目標(biāo)語音比噪聲響度大的,因此稱之為理想的。一個(gè)真正實(shí)用的二值掩蔽濾波器,需要完全獨(dú)立地實(shí)時(shí)地將聲音從背景噪聲中分離出來。因此Wang等人嘗試了將深度神經(jīng)網(wǎng)絡(luò)結(jié)合理想二值掩蔽的降噪方法,以實(shí)現(xiàn)機(jī)器獨(dú)立地學(xué)習(xí)區(qū)分目標(biāo)語音和背景噪聲。

效果評(píng)測

為了測試深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽方法的降噪效果,研究人員招募了12位聽力受損者和12位聽力正常者進(jìn)行測試,被試者通過耳機(jī)聽語音樣本。樣本是成對(duì)的:首先是原始帶噪音頻,然后是基于深層神經(jīng)網(wǎng)絡(luò)的程序處理后的音頻。使用兩種噪音進(jìn)行測試,即平穩(wěn)的“嗡嗡嗡”噪聲和許多人同時(shí)說話的噪聲。許多人同時(shí)說話噪聲是創(chuàng)造了嘈雜的噪聲背景,加入四名男性和四名女性說話語句,模仿雞尾酒會(huì)場景。

兩組被試者測試結(jié)果表明,通過神經(jīng)網(wǎng)絡(luò)對(duì)帶噪語音進(jìn)行降噪,語音信號(hào)的可懂度都有了很大的提高。在多人同時(shí)說話噪聲條件下,聽力障礙者只能理解原始帶噪語音29%的內(nèi)容,但對(duì)于處理后的音頻,他們理解的內(nèi)容達(dá)到了84%。更有結(jié)果從10%提高到了90%。在穩(wěn)定噪聲條件下,類似的改善也很明顯,被試者的理解程度從36%提高到了為82%。

經(jīng)過上述方法降噪后,正常聽力者的表現(xiàn)也有所提升,這意味著此研究的應(yīng)用前景比預(yù)期的要大得多。穩(wěn)定噪聲條件下,聽力正常者理解程度從37%提升到了80%。在多人同時(shí)說話噪聲條件下,他們的表現(xiàn)從40%提高到了78%。

有趣的是,研究人員發(fā)現(xiàn),使用上述降噪方法后,聽力障礙者的表現(xiàn)甚至?xí)^正常聽力者,這意味著基于深度神經(jīng)網(wǎng)絡(luò)的方法,有望解決迄今為止研究人員花費(fèi)無數(shù)精力的“雞尾酒會(huì)效應(yīng)”問題。

未來展望

現(xiàn)實(shí)生活場景中,噪聲是多樣化的,因此應(yīng)用到實(shí)際場景中,無論是噪聲分類器+深度降噪自編碼器降噪方法,還是深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽降噪方法,都需要學(xué)會(huì)快速濾除同時(shí)出現(xiàn)的多種類型噪聲,包括訓(xùn)練集中未出現(xiàn)過的新噪聲。研究人員通過增加訓(xùn)練集噪聲的種類和數(shù)量,例如,Wang等人將訓(xùn)練數(shù)據(jù)中噪聲類型提高了10000種,不斷優(yōu)化改進(jìn)訓(xùn)練后的模型,以實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)語音增強(qiáng)的現(xiàn)實(shí)應(yīng)用意義。

另外,計(jì)算復(fù)雜度目前是基于DNN的降噪方法在助聽設(shè)備中應(yīng)用的關(guān)鍵問題。由于其多層結(jié)構(gòu),DNN模型在運(yùn)行時(shí)需要大量內(nèi)存和高計(jì)算成本。因此,保持其性能的同時(shí),減少在線計(jì)算量,以此來簡化DNN模型的架構(gòu),這樣的要求是非??量痰摹W罱?,研究人員提出了許多方法來制備基于DNN的高度可重構(gòu)且節(jié)能的處理器,用來實(shí)施各類模式分類和回歸任務(wù)[33-39]。同時(shí),研究人員也在努力解決高計(jì)算成本的問題。例如,蒸餾方法[40]將復(fù)雜模型轉(zhuǎn)換成到更適合部署的簡化模型。另一個(gè)著名的方法是在基于深度學(xué)習(xí)的模型中,對(duì)參數(shù)進(jìn)行二進(jìn)制化處理以減少內(nèi)存大小和訪問量[41]。隨著深度學(xué)習(xí)算法和硬件的快速發(fā)展,上述提到的降噪方法可以在不久的將來在助聽設(shè)備中實(shí)現(xiàn)應(yīng)用。此外,已有多個(gè)系統(tǒng)可以將助聽設(shè)備與智能手機(jī),電視機(jī)或MP3播放器等其他設(shè)備集成。這些設(shè)備可以為助聽設(shè)備提供更優(yōu)越的計(jì)算和存儲(chǔ)能力,因此,這也可以很好地解決基于機(jī)器學(xué)習(xí)降噪方法的高計(jì)算成本問題。目前,諸如美國明尼蘇達(dá)州的Starkey聽力技術(shù)公司,正致力于將機(jī)器學(xué)習(xí)技術(shù)與實(shí)際助聽設(shè)備結(jié)合。

機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展很大程度地推動(dòng)了各行業(yè)的智能化發(fā)展,相信在不久的將來,基于機(jī)器學(xué)習(xí)實(shí)現(xiàn)助聽設(shè)備的智能語音增強(qiáng)技術(shù)將得以應(yīng)用,為聽力障礙者乃至整個(gè)人類帶來福音。

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:基于深度知識(shí)遷移的機(jī)器人功...

下一篇:基于深度神經(jīng)網(wǎng)絡(luò)和少量視音...

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號(hào) | 營業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)