您現(xiàn)在的位置：中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 應(yīng)用方案 > 智能語音增強(qiáng)助聽設(shè)備：基于機(jī)器學(xué)習(xí)的研究進(jìn)展

智能語音增強(qiáng)助聽設(shè)備：基于機(jī)器學(xué)習(xí)的研究進(jìn)展

時(shí)間：2018-07-06 14:46:09來源：南方科技大學(xué) 葉富強(qiáng) 陳霏

導(dǎo)語：?據(jù)世界衛(wèi)生組織估計(jì)，約15%的成年人（約7.66億人）有一定程度的聽力受損，并且隨著世界人口的擴(kuò)張和人口老齡化，這一數(shù)字還將持續(xù)上升。對(duì)更高級(jí)的智能助聽設(shè)備的市場需求將會(huì)越來越大，智能助聽設(shè)備的潛在市場不僅僅局限于聽力受損人群，技術(shù)人員還可以將該技術(shù)應(yīng)用到人機(jī)語音交互、復(fù)雜聲場環(huán)境下的言語交流等方面。

引言

據(jù)世界衛(wèi)生組織估計(jì)，約15%的成年人（約7.66億人）有一定程度的聽力受損，并且隨著世界人口的擴(kuò)張和人口老齡化，這一數(shù)字還將持續(xù)上升。對(duì)更高級(jí)的智能助聽設(shè)備的市場需求將會(huì)越來越大，智能助聽設(shè)備的潛在市場不僅僅局限于聽力受損人群，技術(shù)人員還可以將該技術(shù)應(yīng)用到人機(jī)語音交互、復(fù)雜聲場環(huán)境下的言語交流等方面。

近150年以來，技術(shù)的不斷變革在不斷改善助聽設(shè)備的性能。早期的通話管（1880年）完全依靠對(duì)聲音的放大處理。到了1900年，第一臺(tái)電助聽設(shè)備誕生，它通過碳膜來放大聲音。1921年，根據(jù)使用者聽力損失類型的不同，出現(xiàn)使用真空管的助聽設(shè)備。隨著晶體管的出現(xiàn)，1952年第一臺(tái)耳背式助聽器誕生。20世紀(jì)80年代，針對(duì)聽力受損嚴(yán)重患者，具有臨床意義的電子人工耳蝸面世。上世紀(jì)90年代以來，將聲波信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的數(shù)字助聽設(shè)備成為主流，如今的助聽設(shè)備數(shù)字信號(hào)處理能力強(qiáng)大，對(duì)聲音進(jìn)行放大前還需做語音增強(qiáng)以去除背景噪聲，以進(jìn)一步提高助聽設(shè)備的性能。

如何進(jìn)行語音增強(qiáng)實(shí)現(xiàn)降噪成為目前提高助聽設(shè)備性能的一大技術(shù)挑戰(zhàn)。語音增強(qiáng)包括語音降噪、語音分離和語音去混響等，其目的都是改進(jìn)語音質(zhì)量，消除背景噪聲。本調(diào)研文章介紹的語音增強(qiáng)主要為語音降噪技術(shù)，將主要介紹兩種基于機(jī)器學(xué)習(xí)的方法，實(shí)現(xiàn)助聽設(shè)備的智能化語音增強(qiáng)。

傳統(tǒng)的語音降噪技術(shù)

長期以來，許多研究人員致力于研究語音降噪技術(shù)，這些降噪技術(shù)可以分為兩類：多麥克風(fēng)陣列和單麥克風(fēng)框架。當(dāng)目標(biāo)語音和噪聲在空間上可分離時(shí)，多麥克風(fēng)陣列降噪方法的優(yōu)勢明顯[1]。然而，在混響環(huán)境中，多麥克風(fēng)的降噪方法的性能降低，并且它的應(yīng)用通常局限于目標(biāo)語音和噪聲源空間可分離的聲場[2]。因?yàn)楦郊拥柠溈孙L(fēng)增加了設(shè)備費(fèi)用和計(jì)算成本，因此，與多麥克風(fēng)的降噪方法相比，單麥克風(fēng)降噪方法更具經(jīng)濟(jì)優(yōu)勢。因此，研究人員提出了多種單麥克風(fēng)降噪技術(shù)，例如INTEL[3-4]、對(duì)數(shù)最小均方誤差(logMMSE)[5]、基于先驗(yàn)信噪比估計(jì)的維納濾波器(Wiener)[6]、KLT[7-9]、ClearVoice[10]、基于信噪比的降噪方法[11]和廣義最大后驗(yàn)頻譜振幅[12]等。這些降噪方法大都是基于對(duì)語音和噪聲信號(hào)的統(tǒng)計(jì)學(xué)分析而提出的[13]。另一種流行的傳統(tǒng)降噪方法是使用端點(diǎn)檢測器識(shí)別人說話的停頓間隙，將此指定為噪聲，然后將其從帶噪語音中“減去”獲得降噪后的語音。這種降噪方法也被稱為譜減法，但是它通常對(duì)噪聲抑制太少或者消除太多噪聲，以至于將目標(biāo)語音也消除了，這也就帶來了聽起來有韻律感的音樂噪聲，使得降噪后的語音質(zhì)量下降。

Chen等人在2015年招募人工耳蝸植入者作為被試者，對(duì)幾種單麥克風(fēng)降噪方法效果進(jìn)行了評(píng)估，發(fā)現(xiàn)大多數(shù)降噪方法在噪聲條件下有效提高了人工耳蝸植入者的語音識(shí)別率。但是，這些方法在不同噪聲條件下表現(xiàn)不一。傳統(tǒng)的單麥克風(fēng)降噪方法在穩(wěn)定噪聲條件下給人工耳蝸植入者的語音識(shí)別帶來顯著改善，但在具挑戰(zhàn)性噪聲條件下（例如當(dāng)競爭信號(hào)是語音信號(hào)[14]或快變?cè)肼昜15]），仍然有很大的性能改善空間。基于機(jī)器學(xué)習(xí)的降噪方法在具挑戰(zhàn)性的噪聲條件下很好地彌補(bǔ)了傳統(tǒng)降噪方法的短板。

基于噪聲分類器+深度降噪自編碼器的降噪方法

Lu等人2013年提出了一種基于深度降噪自編碼器(DDAE)的降噪方法，該方法將降噪轉(zhuǎn)換成非線性編碼-解碼任務(wù)，以此來映射噪聲信號(hào)和干凈語音信號(hào)之間的特征。Lu等人發(fā)現(xiàn)，針對(duì)常見噪聲進(jìn)行降噪，使用多種標(biāo)準(zhǔn)化客觀評(píng)估，DDAE降噪方法的性能優(yōu)于傳統(tǒng)單麥克風(fēng)降噪方法[16]。2017年，Lai等人評(píng)估了非匹配DDAE模型（即訓(xùn)練和測試階段使用不同類型的噪聲）對(duì)使用聲碼器生成的語音降噪效果?？陀^評(píng)估和主觀聽力測試的結(jié)果均表明，在非平穩(wěn)噪聲條件下，DDAE降噪方法處理后的語音可懂度高于傳統(tǒng)降噪方法。非匹配的DDAE模型已經(jīng)可以提供較好的降噪效果[17]，但是只有當(dāng)測試集和訓(xùn)練集噪聲類型相同時(shí)（即匹配的DDAE模型），DDAE降噪效果才能達(dá)到最佳。因此，Lai等人于2018年提出了一種新的降噪方法，即采用額外的噪聲分類器（以下簡稱NC）模塊，來進(jìn)一步提高基于DDAE降噪方法的性能。我們稱之為NC+DDAE降噪方法。

NC+DDAE降噪系統(tǒng)的細(xì)節(jié)框圖[18]可參考圖2。當(dāng)給定帶噪語音信號(hào)時(shí)，NC模塊首先確定噪聲類型并選擇最合適的DDAE模型來執(zhí)行降噪。在DDAE模塊中，設(shè)計(jì)了多個(gè)噪聲相關(guān)DDAE（noise-dependentDDAE,ND-DDAE）模型和一個(gè)與噪聲無關(guān)的DDAE（noise-independentDDAE,NI-DDAE）模型。每個(gè)ND-DDAE都是根據(jù)某一特定類型的噪聲進(jìn)行訓(xùn)練的，而NI-DDAE則是針對(duì)多種噪聲類型進(jìn)行訓(xùn)練的。下面將分別介紹NC和DDAE模塊。

基于深度神經(jīng)網(wǎng)絡(luò)的噪聲分類器模塊

NC模塊是基于深度神經(jīng)網(wǎng)絡(luò)（deepneuralnetwork，DNN）模型構(gòu)建的。DNN模型是在輸入層和輸出層之間具有許多隱藏層的前饋人工神經(jīng)網(wǎng)絡(luò)。如圖2上半部分所示，使用梅爾頻率倒譜系數(shù)（Mel-frequencycepstralcoefficients，MFCC）[19-20]作為NC模塊的聲學(xué)特征。MFCC廣泛應(yīng)用于各種聲學(xué)模式分類任務(wù)，如音樂分類[21]和自動(dòng)聽診[22]。MFCC特征提取過程包括六個(gè)步驟：（1）預(yù)加重：補(bǔ)償在人類發(fā)聲過程中被抑制的高頻部分；（2）加窗：給定信號(hào)被分成一系列的幀；（3）快速傅立葉變換：獲得每幀的頻譜響應(yīng)以進(jìn)行頻譜分析；（4）梅爾濾波：將梅爾濾波帶的頻率成分整合為單能量強(qiáng)度；（5）非線性變換：該變換取所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)形式；（6）離散余弦變換：將所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)轉(zhuǎn)換成MFCC。研究表明，39維MFCC（13維原始MFCC+13維一階MFCC+13維二階MFCC）可以更精確地表征聲學(xué)模式，從而產(chǎn)生更好的識(shí)別性能[23-24]。

在NC模塊中，這里進(jìn)一步采用置信度（ConfidenceMeasure，CM）[25]來評(píng)估識(shí)別結(jié)果的可靠性。CM分?jǐn)?shù)表示我們可以相信識(shí)別結(jié)果的程度：分?jǐn)?shù)越高表示對(duì)識(shí)別輸出的置信度越高，反之亦然。計(jì)算完CM分?jǐn)?shù)之后，定義一個(gè)閾值以對(duì)結(jié)果中的置信度分類。如前所述，NC模塊的目標(biāo)是確定噪聲類型，然后根據(jù)噪聲類型來選擇最合適的DDAE模型來執(zhí)行降噪。因此，如果所確定的噪聲類型的CM評(píng)分高于閾值，則選擇相應(yīng)的ND-DDAE模型來執(zhí)行降噪；另一方面，如果CM評(píng)分低于閾值，則直接使用NI-DDAE模型來執(zhí)行降噪。

基于深度降噪自編碼器的降噪模塊

DDAE降噪模塊的結(jié)構(gòu)如圖2下半部分所示。DDAE是一種有監(jiān)督的降噪方法，基于DNN的架構(gòu)，得到帶噪語音信號(hào)和干凈語音信號(hào)之間的映射函數(shù)。DDAE降噪方法有兩個(gè)階段：訓(xùn)練和測試階段。在訓(xùn)練階段，準(zhǔn)備好一系列帶噪和相應(yīng)的干凈語音信號(hào)對(duì)；在訓(xùn)練階段，帶噪-干凈語音信號(hào)對(duì)首先轉(zhuǎn)換為對(duì)數(shù)功率譜特征(LogPowerSpectra,LPS)，LPS特征通常用在基于DNN降噪方法中[15,26]。對(duì)輸入信號(hào)進(jìn)行短時(shí)傅里葉分析，計(jì)算每個(gè)重疊加窗幀的離散傅里葉變換，從而獲得LPS譜。

如圖2所示，一共準(zhǔn)備N個(gè)ND-DDAE模型（例如ND-DDAE_1至ND-DDAE_N）和一個(gè)NI-DDAE模型。一共N+1個(gè)模型都在訓(xùn)練階段訓(xùn)練好。值得注意的是，每個(gè)ND-DDAE模型都是在某一特定噪聲類型下訓(xùn)練，因此在這一特定噪聲類型條件下，模型可以更準(zhǔn)確地表征帶噪語音信號(hào)轉(zhuǎn)換到對(duì)應(yīng)干凈語音信號(hào)的特征。另外，NI-DDAE模型由多種類型的噪聲訓(xùn)練，因此在特定噪聲類型條件下降噪，它的表征能力不如ND-DDAE。但是，因?yàn)镹I-DDAE模型由多種類型噪聲訓(xùn)練，它對(duì)新出現(xiàn)的噪聲類型降噪效果會(huì)較好。這里提出的NC+DDAE降噪方法可以總結(jié)如下：（1）當(dāng)測試噪聲類型被包含在訓(xùn)練集中，系統(tǒng)選擇最恰當(dāng)?shù)腘D-DDAE模型進(jìn)行降噪（即匹配的DDAE模型）；（2）當(dāng)測試噪聲不被包含在訓(xùn)練集中，NI-DDAE模型用來降噪（即非匹配的DDAE模型），它對(duì)不同類型噪聲的泛化能力較好。

效果評(píng)測

為了測試NC+DDAE降噪方法的效果，研究采用歸一化協(xié)方差度量(NormalizedCovarianceMeasure，NCM)[27]來客觀評(píng)估降噪后的語音的可懂度，并招募了9名說普通話的人工耳植入者進(jìn)行臨床聽力測試，使用詞正確率（WordCorrectRate，WCR）[17,28-31]作為評(píng)估指標(biāo)。測試過程采用雙人交流噪聲和建筑手提鉆噪聲，信噪比等級(jí)分別設(shè)置為0和5dB。NCM評(píng)分和WCR評(píng)分都表明，NC+DDAE降噪方法相比于傳統(tǒng)單麥克風(fēng)降噪方法和DDAE降噪方法，降噪效果有顯著性提升。

與傳統(tǒng)的降噪技術(shù)相比，NC+DDAE降噪方法可以被視為只需數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法。這種降噪方法學(xué)習(xí)從帶噪語音信號(hào)到干凈語音信號(hào)的映射函數(shù)，而不會(huì)強(qiáng)加任何假設(shè)。再基于NC+DDAE模型的映射函數(shù)，不使用任何噪聲估計(jì)算法，將帶噪語音直接轉(zhuǎn)換為干凈的語音。因此，即使在處理困難的，競爭性噪聲或信噪比0dB時(shí)，NC+DDAE降噪后的語音可懂度也比傳統(tǒng)降噪方法高。

基于深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽的降噪方法

1990年，來自加拿大蒙特利爾麥吉爾大學(xué)的心理學(xué)家AlbertBregman，提出人類聽覺系統(tǒng)將聲音分成不同的聲音流，例如，幾個(gè)朋友一邊聊天一邊放著音樂，這就構(gòu)成了所謂的聽覺場景。聽覺場景中每個(gè)聲音流的音調(diào)、響度和方向都是不同的。如果兩個(gè)聲音在同一時(shí)間共享了同一頻段，響度高的聲音流壓倒響度較低的，這就是聽覺掩蔽原理，譬如，屋外的雨打在窗戶上發(fā)出“滴答滴答”的聲音，人可能就不會(huì)注意到屋內(nèi)掛鐘的滴答聲。

基于上述提到的原理，來自美國俄亥俄州立大學(xué)的WangDeliang提出了理想二值掩蔽方法[32]，在一個(gè)特定頻段內(nèi)的一個(gè)特定短暫間隔（或時(shí)頻單元），理想二值掩蔽濾波器分析帶噪語音的每個(gè)時(shí)頻單元，并將每個(gè)時(shí)頻單元標(biāo)記為“0”或者“1”，如果目標(biāo)語音強(qiáng)于噪聲，標(biāo)記為1，反之標(biāo)記為0。然后濾波器拋棄標(biāo)記為0的單元，利用標(biāo)記為1的時(shí)頻單元重建語音。理想二值掩蔽極大改善了聽力障礙者的語音理解能力，但是這里的理想二值掩蔽是停留在實(shí)驗(yàn)室層面的，實(shí)驗(yàn)設(shè)計(jì)將語音和噪聲混合，濾波器是知道什么時(shí)候目標(biāo)語音比噪聲響度大的，因此稱之為理想的。一個(gè)真正實(shí)用的二值掩蔽濾波器，需要完全獨(dú)立地實(shí)時(shí)地將聲音從背景噪聲中分離出來。因此Wang等人嘗試了將深度神經(jīng)網(wǎng)絡(luò)結(jié)合理想二值掩蔽的降噪方法，以實(shí)現(xiàn)機(jī)器獨(dú)立地學(xué)習(xí)區(qū)分目標(biāo)語音和背景噪聲。

效果評(píng)測

為了測試深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽方法的降噪效果，研究人員招募了12位聽力受損者和12位聽力正常者進(jìn)行測試，被試者通過耳機(jī)聽語音樣本。樣本是成對(duì)的：首先是原始帶噪音頻，然后是基于深層神經(jīng)網(wǎng)絡(luò)的程序處理后的音頻。使用兩種噪音進(jìn)行測試，即平穩(wěn)的“嗡嗡嗡”噪聲和許多人同時(shí)說話的噪聲。許多人同時(shí)說話噪聲是創(chuàng)造了嘈雜的噪聲背景，加入四名男性和四名女性說話語句，模仿雞尾酒會(huì)場景。

兩組被試者測試結(jié)果表明，通過神經(jīng)網(wǎng)絡(luò)對(duì)帶噪語音進(jìn)行降噪，語音信號(hào)的可懂度都有了很大的提高。在多人同時(shí)說話噪聲條件下，聽力障礙者只能理解原始帶噪語音29％的內(nèi)容，但對(duì)于處理后的音頻，他們理解的內(nèi)容達(dá)到了84％。更有結(jié)果從10％提高到了90％。在穩(wěn)定噪聲條件下，類似的改善也很明顯，被試者的理解程度從36％提高到了為82％。

經(jīng)過上述方法降噪后，正常聽力者的表現(xiàn)也有所提升，這意味著此研究的應(yīng)用前景比預(yù)期的要大得多。穩(wěn)定噪聲條件下，聽力正常者理解程度從37％提升到了80%。在多人同時(shí)說話噪聲條件下，他們的表現(xiàn)從40%提高到了78%。

有趣的是，研究人員發(fā)現(xiàn)，使用上述降噪方法后，聽力障礙者的表現(xiàn)甚至?xí)^正常聽力者，這意味著基于深度神經(jīng)網(wǎng)絡(luò)的方法，有望解決迄今為止研究人員花費(fèi)無數(shù)精力的“雞尾酒會(huì)效應(yīng)”問題。

未來展望

現(xiàn)實(shí)生活場景中，噪聲是多樣化的，因此應(yīng)用到實(shí)際場景中，無論是噪聲分類器+深度降噪自編碼器降噪方法，還是深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽降噪方法，都需要學(xué)會(huì)快速濾除同時(shí)出現(xiàn)的多種類型噪聲，包括訓(xùn)練集中未出現(xiàn)過的新噪聲。研究人員通過增加訓(xùn)練集噪聲的種類和數(shù)量，例如，Wang等人將訓(xùn)練數(shù)據(jù)中噪聲類型提高了10000種，不斷優(yōu)化改進(jìn)訓(xùn)練后的模型，以實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)語音增強(qiáng)的現(xiàn)實(shí)應(yīng)用意義。

另外，計(jì)算復(fù)雜度目前是基于DNN的降噪方法在助聽設(shè)備中應(yīng)用的關(guān)鍵問題。由于其多層結(jié)構(gòu)，DNN模型在運(yùn)行時(shí)需要大量內(nèi)存和高計(jì)算成本。因此，保持其性能的同時(shí)，減少在線計(jì)算量，以此來簡化DNN模型的架構(gòu)，這樣的要求是非?？量痰摹Ｗ罱?，研究人員提出了許多方法來制備基于DNN的高度可重構(gòu)且節(jié)能的處理器，用來實(shí)施各類模式分類和回歸任務(wù)[33-39]。同時(shí)，研究人員也在努力解決高計(jì)算成本的問題。例如，蒸餾方法[40]將復(fù)雜模型轉(zhuǎn)換成到更適合部署的簡化模型。另一個(gè)著名的方法是在基于深度學(xué)習(xí)的模型中，對(duì)參數(shù)進(jìn)行二進(jìn)制化處理以減少內(nèi)存大小和訪問量[41]。隨著深度學(xué)習(xí)算法和硬件的快速發(fā)展，上述提到的降噪方法可以在不久的將來在助聽設(shè)備中實(shí)現(xiàn)應(yīng)用。此外，已有多個(gè)系統(tǒng)可以將助聽設(shè)備與智能手機(jī)，電視機(jī)或MP3播放器等其他設(shè)備集成。這些設(shè)備可以為助聽設(shè)備提供更優(yōu)越的計(jì)算和存儲(chǔ)能力，因此，這也可以很好地解決基于機(jī)器學(xué)習(xí)降噪方法的高計(jì)算成本問題。目前，諸如美國明尼蘇達(dá)州的Starkey聽力技術(shù)公司，正致力于將機(jī)器學(xué)習(xí)技術(shù)與實(shí)際助聽設(shè)備結(jié)合。

機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展很大程度地推動(dòng)了各行業(yè)的智能化發(fā)展，相信在不久的將來，基于機(jī)器學(xué)習(xí)實(shí)現(xiàn)助聽設(shè)備的智能語音增強(qiáng)技術(shù)將得以應(yīng)用，為聽力障礙者乃至整個(gè)人類帶來福音。

標(biāo)簽：

分享到：

上一篇：基于深度知識(shí)遷移的機(jī)器人功...

下一篇：基于深度神經(jīng)網(wǎng)絡(luò)和少量視音...

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點(diǎn)