智能語(yǔ)音增強(qiáng)助聽(tīng)設(shè)備:基于機(jī)器學(xué)習(xí)的研究進(jìn)展

文:南方科技大學(xué) 葉富強(qiáng) 陳霏2018年第三期

    引言

    據(jù)世界衛(wèi)生組織估計(jì),約15%的成年人(約7.66億人)有一定程度的聽(tīng)力受損,并且隨著世界人口的擴(kuò)張和人口老齡化,這一數(shù)字還將持續(xù)上升。對(duì)更高級(jí)的智能助聽(tīng)設(shè)備的市場(chǎng)需求將會(huì)越來(lái)越大,智能助聽(tīng)設(shè)備的潛在市場(chǎng)不僅僅局限于聽(tīng)力受損人群,技術(shù)人員還可以將該技術(shù)應(yīng)用到人機(jī)語(yǔ)音交互、復(fù)雜聲場(chǎng)環(huán)境下的言語(yǔ)交流等方面。

    近150年以來(lái),技術(shù)的不斷變革在不斷改善助聽(tīng)設(shè)備的性能。早期的通話管(1880年)完全依靠對(duì)聲音的放大處理。到了1900年,第一臺(tái)電助聽(tīng)設(shè)備誕生,它通過(guò)碳膜來(lái)放大聲音。1921年,根據(jù)使用者聽(tīng)力損失類(lèi)型的不同,出現(xiàn)使用真空管的助聽(tīng)設(shè)備。隨著晶體管的出現(xiàn),1952年第一臺(tái)耳背式助聽(tīng)器誕生。20世紀(jì)80年代,針對(duì)聽(tīng)力受損嚴(yán)重患者,具有臨床意義的電子人工耳蝸面世。上世紀(jì)90年代以來(lái),將聲波信號(hào)轉(zhuǎn)換成數(shù)字信號(hào)的數(shù)字助聽(tīng)設(shè)備成為主流,如今的助聽(tīng)設(shè)備數(shù)字信號(hào)處理能力強(qiáng)大,對(duì)聲音進(jìn)行放大前還需做語(yǔ)音增強(qiáng)以去除背景噪聲,以進(jìn)一步提高助聽(tīng)設(shè)備的性能。

    如何進(jìn)行語(yǔ)音增強(qiáng)實(shí)現(xiàn)降噪成為目前提高助聽(tīng)設(shè)備性能的一大技術(shù)挑戰(zhàn)。語(yǔ)音增強(qiáng)包括語(yǔ)音降噪、語(yǔ)音分離和語(yǔ)音去混響等,其目的都是改進(jìn)語(yǔ)音質(zhì)量,消除背景噪聲。本調(diào)研文章介紹的語(yǔ)音增強(qiáng)主要為語(yǔ)音降噪技術(shù),將主要介紹兩種基于機(jī)器學(xué)習(xí)的方法,實(shí)現(xiàn)助聽(tīng)設(shè)備的智能化語(yǔ)音增強(qiáng)。

    傳統(tǒng)的語(yǔ)音降噪技術(shù)

    長(zhǎng)期以來(lái),許多研究人員致力于研究語(yǔ)音降噪技術(shù),這些降噪技術(shù)可以分為兩類(lèi):多麥克風(fēng)陣列和單麥克風(fēng)框架。當(dāng)目標(biāo)語(yǔ)音和噪聲在空間上可分離時(shí),多麥克風(fēng)陣列降噪方法的優(yōu)勢(shì)明顯[1]。然而,在混響環(huán)境中,多麥克風(fēng)的降噪方法的性能降低,并且它的應(yīng)用通常局限于目標(biāo)語(yǔ)音和噪聲源空間可分離的聲場(chǎng)[2]。因?yàn)楦郊拥柠溈孙L(fēng)增加了設(shè)備費(fèi)用和計(jì)算成本,因此,與多麥克風(fēng)的降噪方法相比,單麥克風(fēng)降噪方法更具經(jīng)濟(jì)優(yōu)勢(shì)。因此,研究人員提出了多種單麥克風(fēng)降噪技術(shù),例如INTEL[3-4]、對(duì)數(shù)最小均方誤差(logMMSE)[5]、基于先驗(yàn)信噪比估計(jì)的維納濾波器(Wiener)[6]、KLT[7-9]、ClearVoice[10]、基于信噪比的降噪方法[11]和廣義最大后驗(yàn)頻譜振幅[12]等。這些降噪方法大都是基于對(duì)語(yǔ)音和噪聲信號(hào)的統(tǒng)計(jì)學(xué)分析而提出的[13]。另一種流行的傳統(tǒng)降噪方法是使用端點(diǎn)檢測(cè)器識(shí)別人說(shuō)話的停頓間隙,將此指定為噪聲,然后將其從帶噪語(yǔ)音中“減去”獲得降噪后的語(yǔ)音。這種降噪方法也被稱(chēng)為譜減法,但是它通常對(duì)噪聲抑制太少或者消除太多噪聲,以至于將目標(biāo)語(yǔ)音也消除了,這也就帶來(lái)了聽(tīng)起來(lái)有韻律感的音樂(lè)噪聲,使得降噪后的語(yǔ)音質(zhì)量下降。

    Chen等人在2015年招募人工耳蝸植入者作為被試者,對(duì)幾種單麥克風(fēng)降噪方法效果進(jìn)行了評(píng)估,發(fā)現(xiàn)大多數(shù)降噪方法在噪聲條件下有效提高了人工耳蝸植入者的語(yǔ)音識(shí)別率。但是,這些方法在不同噪聲條件下表現(xiàn)不一。傳統(tǒng)的單麥克風(fēng)降噪方法在穩(wěn)定噪聲條件下給人工耳蝸植入者的語(yǔ)音識(shí)別帶來(lái)顯著改善,但在具挑戰(zhàn)性噪聲條件下(例如當(dāng)競(jìng)爭(zhēng)信號(hào)是語(yǔ)音信號(hào)[14]或快變?cè)肼昜15]),仍然有很大的性能改善空間?;跈C(jī)器學(xué)習(xí)的降噪方法在具挑戰(zhàn)性的噪聲條件下很好地彌補(bǔ)了傳統(tǒng)降噪方法的短板。

    基于噪聲分類(lèi)器+深度降噪自編碼器的降噪方法

    Lu等人2013年提出了一種基于深度降噪自編碼器(DDAE)的降噪方法,該方法將降噪轉(zhuǎn)換成非線性編碼-解碼任務(wù),以此來(lái)映射噪聲信號(hào)和干凈語(yǔ)音信號(hào)之間的特征。Lu等人發(fā)現(xiàn),針對(duì)常見(jiàn)噪聲進(jìn)行降噪,使用多種標(biāo)準(zhǔn)化客觀評(píng)估,DDAE降噪方法的性能優(yōu)于傳統(tǒng)單麥克風(fēng)降噪方法[16]。2017年,Lai等人評(píng)估了非匹配DDAE模型(即訓(xùn)練和測(cè)試階段使用不同類(lèi)型的噪聲)對(duì)使用聲碼器生成的語(yǔ)音降噪效果??陀^評(píng)估和主觀聽(tīng)力測(cè)試的結(jié)果均表明,在非平穩(wěn)噪聲條件下,DDAE降噪方法處理后的語(yǔ)音可懂度高于傳統(tǒng)降噪方法。非匹配的DDAE模型已經(jīng)可以提供較好的降噪效果[17],但是只有當(dāng)測(cè)試集和訓(xùn)練集噪聲類(lèi)型相同時(shí)(即匹配的DDAE模型),DDAE降噪效果才能達(dá)到最佳。因此,Lai等人于2018年提出了一種新的降噪方法,即采用額外的噪聲分類(lèi)器(以下簡(jiǎn)稱(chēng)NC)模塊,來(lái)進(jìn)一步提高基于DDAE降噪方法的性能。我們稱(chēng)之為NC+DDAE降噪方法。

NC+DDAE降噪系統(tǒng)的細(xì)節(jié)框圖[18]可參考圖2。當(dāng)給定帶噪語(yǔ)音信號(hào)時(shí),NC模塊首先確定噪聲類(lèi)型并選擇最合適的DDAE模型來(lái)執(zhí)行降噪。在DDAE模塊中,設(shè)計(jì)了多個(gè)噪聲相關(guān)DDAE(noise-dependentDDAE,ND-DDAE)模型和一個(gè)與噪聲無(wú)關(guān)的DDAE(noise-independentDDAE,NI-DDAE)模型。每個(gè)ND-DDAE都是根據(jù)某一特定類(lèi)型的噪聲進(jìn)行訓(xùn)練的,而NI-DDAE則是針對(duì)多種噪聲類(lèi)型進(jìn)行訓(xùn)練的。下面將分別介紹NC和DDAE模塊。

    基于深度神經(jīng)網(wǎng)絡(luò)的噪聲分類(lèi)器模塊

    NC模塊是基于深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,DNN)模型構(gòu)建的。DNN模型是在輸入層和輸出層之間具有許多隱藏層的前饋人工神經(jīng)網(wǎng)絡(luò)。如圖2上半部分所示,使用梅爾頻率倒譜系數(shù)(Mel-frequencycepstralcoefficients,MFCC)[19-20]作為NC模塊的聲學(xué)特征。MFCC廣泛應(yīng)用于各種聲學(xué)模式分類(lèi)任務(wù),如音樂(lè)分類(lèi)[21]和自動(dòng)聽(tīng)診[22]。MFCC特征提取過(guò)程包括六個(gè)步驟:(1)預(yù)加重:補(bǔ)償在人類(lèi)發(fā)聲過(guò)程中被抑制的高頻部分;(2)加窗:給定信號(hào)被分成一系列的幀;(3)快速傅立葉變換:獲得每幀的頻譜響應(yīng)以進(jìn)行頻譜分析;(4)梅爾濾波:將梅爾濾波帶的頻率成分整合為單能量強(qiáng)度;(5)非線性變換:該變換取所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)形式;(6)離散余弦變換:將所有梅爾濾波帶強(qiáng)度的對(duì)數(shù)轉(zhuǎn)換成MFCC。研究表明,39維MFCC(13維原始MFCC+13維一階MFCC+13維二階MFCC)可以更精確地表征聲學(xué)模式,從而產(chǎn)生更好的識(shí)別性能[23-24]。

    在NC模塊中,這里進(jìn)一步采用置信度(ConfidenceMeasure,CM)[25]來(lái)評(píng)估識(shí)別結(jié)果的可靠性。CM分?jǐn)?shù)表示我們可以相信識(shí)別結(jié)果的程度:分?jǐn)?shù)越高表示對(duì)識(shí)別輸出的置信度越高,反之亦然。計(jì)算完CM分?jǐn)?shù)之后,定義一個(gè)閾值以對(duì)結(jié)果中的置信度分類(lèi)。如前所述,NC模塊的目標(biāo)是確定噪聲類(lèi)型,然后根據(jù)噪聲類(lèi)型來(lái)選擇最合適的DDAE模型來(lái)執(zhí)行降噪。因此,如果所確定的噪聲類(lèi)型的CM評(píng)分高于閾值,則選擇相應(yīng)的ND-DDAE模型來(lái)執(zhí)行降噪;另一方面,如果CM評(píng)分低于閾值,則直接使用NI-DDAE模型來(lái)執(zhí)行降噪。

    基于深度降噪自編碼器的降噪模塊

    DDAE降噪模塊的結(jié)構(gòu)如圖2下半部分所示。DDAE是一種有監(jiān)督的降噪方法,基于DNN的架構(gòu),得到帶噪語(yǔ)音信號(hào)和干凈語(yǔ)音信號(hào)之間的映射函數(shù)。DDAE降噪方法有兩個(gè)階段:訓(xùn)練和測(cè)試階段。在訓(xùn)練階段,準(zhǔn)備好一系列帶噪和相應(yīng)的干凈語(yǔ)音信號(hào)對(duì);在訓(xùn)練階段,帶噪-干凈語(yǔ)音信號(hào)對(duì)首先轉(zhuǎn)換為對(duì)數(shù)功率譜特征(LogPowerSpectra,LPS),LPS特征通常用在基于DNN降噪方法中[15,26]。對(duì)輸入信號(hào)進(jìn)行短時(shí)傅里葉分析,計(jì)算每個(gè)重疊加窗幀的離散傅里葉變換,從而獲得LPS譜。

    如圖2所示,一共準(zhǔn)備N(xiāo)個(gè)ND-DDAE模型(例如ND-DDAE_1至ND-DDAE_N)和一個(gè)NI-DDAE模型。一共N+1個(gè)模型都在訓(xùn)練階段訓(xùn)練好。值得注意的是,每個(gè)ND-DDAE模型都是在某一特定噪聲類(lèi)型下訓(xùn)練,因此在這一特定噪聲類(lèi)型條件下,模型可以更準(zhǔn)確地表征帶噪語(yǔ)音信號(hào)轉(zhuǎn)換到對(duì)應(yīng)干凈語(yǔ)音信號(hào)的特征。另外,NI-DDAE模型由多種類(lèi)型的噪聲訓(xùn)練,因此在特定噪聲類(lèi)型條件下降噪,它的表征能力不如ND-DDAE。但是,因?yàn)镹I-DDAE模型由多種類(lèi)型噪聲訓(xùn)練,它對(duì)新出現(xiàn)的噪聲類(lèi)型降噪效果會(huì)較好。這里提出的NC+DDAE降噪方法可以總結(jié)如下:(1)當(dāng)測(cè)試噪聲類(lèi)型被包含在訓(xùn)練集中,系統(tǒng)選擇最恰當(dāng)?shù)腘D-DDAE模型進(jìn)行降噪(即匹配的DDAE模型);(2)當(dāng)測(cè)試噪聲不被包含在訓(xùn)練集中,NI-DDAE模型用來(lái)降噪(即非匹配的DDAE模型),它對(duì)不同類(lèi)型噪聲的泛化能力較好。

    效果評(píng)測(cè)

   為了測(cè)試NC+DDAE降噪方法的效果,研究采用歸一化協(xié)方差度量(NormalizedCovarianceMeasure,NCM)[27]來(lái)客觀評(píng)估降噪后的語(yǔ)音的可懂度,并招募了9名說(shuō)普通話的人工耳植入者進(jìn)行臨床聽(tīng)力測(cè)試,使用詞正確率(WordCorrectRate,WCR)[17,28-31]作為評(píng)估指標(biāo)。測(cè)試過(guò)程采用雙人交流噪聲和建筑手提鉆噪聲,信噪比等級(jí)分別設(shè)置為0和5dB。NCM評(píng)分和WCR評(píng)分都表明,NC+DDAE降噪方法相比于傳統(tǒng)單麥克風(fēng)降噪方法和DDAE降噪方法,降噪效果有顯著性提升。

    與傳統(tǒng)的降噪技術(shù)相比,NC+DDAE降噪方法可以被視為只需數(shù)據(jù)的有監(jiān)督學(xué)習(xí)方法。這種降噪方法學(xué)習(xí)從帶噪語(yǔ)音信號(hào)到干凈語(yǔ)音信號(hào)的映射函數(shù),而不會(huì)強(qiáng)加任何假設(shè)。再基于NC+DDAE模型的映射函數(shù),不使用任何噪聲估計(jì)算法,將帶噪語(yǔ)音直接轉(zhuǎn)換為干凈的語(yǔ)音。因此,即使在處理困難的,競(jìng)爭(zhēng)性噪聲或信噪比0dB時(shí),NC+DDAE降噪后的語(yǔ)音可懂度也比傳統(tǒng)降噪方法高。

    基于深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽的降噪方法

    1990年,來(lái)自加拿大蒙特利爾麥吉爾大學(xué)的心理學(xué)家AlbertBregman,提出人類(lèi)聽(tīng)覺(jué)系統(tǒng)將聲音分成不同的聲音流,例如,幾個(gè)朋友一邊聊天一邊放著音樂(lè),這就構(gòu)成了所謂的聽(tīng)覺(jué)場(chǎng)景。聽(tīng)覺(jué)場(chǎng)景中每個(gè)聲音流的音調(diào)、響度和方向都是不同的。如果兩個(gè)聲音在同一時(shí)間共享了同一頻段,響度高的聲音流壓倒響度較低的,這就是聽(tīng)覺(jué)掩蔽原理,譬如,屋外的雨打在窗戶上發(fā)出“滴答滴答”的聲音,人可能就不會(huì)注意到屋內(nèi)掛鐘的滴答聲。

    基于上述提到的原理,來(lái)自美國(guó)俄亥俄州立大學(xué)的WangDeliang提出了理想二值掩蔽方法[32],在一個(gè)特定頻段內(nèi)的一個(gè)特定短暫間隔(或時(shí)頻單元),理想二值掩蔽濾波器分析帶噪語(yǔ)音的每個(gè)時(shí)頻單元,并將每個(gè)時(shí)頻單元標(biāo)記為“0”或者“1”,如果目標(biāo)語(yǔ)音強(qiáng)于噪聲,標(biāo)記為1,反之標(biāo)記為0。然后濾波器拋棄標(biāo)記為0的單元,利用標(biāo)記為1的時(shí)頻單元重建語(yǔ)音。理想二值掩蔽極大改善了聽(tīng)力障礙者的語(yǔ)音理解能力,但是這里的理想二值掩蔽是停留在實(shí)驗(yàn)室層面的,實(shí)驗(yàn)設(shè)計(jì)將語(yǔ)音和噪聲混合,濾波器是知道什么時(shí)候目標(biāo)語(yǔ)音比噪聲響度大的,因此稱(chēng)之為理想的。一個(gè)真正實(shí)用的二值掩蔽濾波器,需要完全獨(dú)立地實(shí)時(shí)地將聲音從背景噪聲中分離出來(lái)。因此Wang等人嘗試了將深度神經(jīng)網(wǎng)絡(luò)結(jié)合理想二值掩蔽的降噪方法,以實(shí)現(xiàn)機(jī)器獨(dú)立地學(xué)習(xí)區(qū)分目標(biāo)語(yǔ)音和背景噪聲。

    效果評(píng)測(cè)

    為了測(cè)試深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽方法的降噪效果,研究人員招募了12位聽(tīng)力受損者和12位聽(tīng)力正常者進(jìn)行測(cè)試,被試者通過(guò)耳機(jī)聽(tīng)語(yǔ)音樣本。樣本是成對(duì)的:首先是原始帶噪音頻,然后是基于深層神經(jīng)網(wǎng)絡(luò)的程序處理后的音頻。使用兩種噪音進(jìn)行測(cè)試,即平穩(wěn)的“嗡嗡嗡”噪聲和許多人同時(shí)說(shuō)話的噪聲。許多人同時(shí)說(shuō)話噪聲是創(chuàng)造了嘈雜的噪聲背景,加入四名男性和四名女性說(shuō)話語(yǔ)句,模仿雞尾酒會(huì)場(chǎng)景。

    兩組被試者測(cè)試結(jié)果表明,通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)帶噪語(yǔ)音進(jìn)行降噪,語(yǔ)音信號(hào)的可懂度都有了很大的提高。在多人同時(shí)說(shuō)話噪聲條件下,聽(tīng)力障礙者只能理解原始帶噪語(yǔ)音29%的內(nèi)容,但對(duì)于處理后的音頻,他們理解的內(nèi)容達(dá)到了84%。更有結(jié)果從10%提高到了90%。在穩(wěn)定噪聲條件下,類(lèi)似的改善也很明顯,被試者的理解程度從36%提高到了為82%。

    經(jīng)過(guò)上述方法降噪后,正常聽(tīng)力者的表現(xiàn)也有所提升,這意味著此研究的應(yīng)用前景比預(yù)期的要大得多。穩(wěn)定噪聲條件下,聽(tīng)力正常者理解程度從37%提升到了80%。在多人同時(shí)說(shuō)話噪聲條件下,他們的表現(xiàn)從40%提高到了78%。

    有趣的是,研究人員發(fā)現(xiàn),使用上述降噪方法后,聽(tīng)力障礙者的表現(xiàn)甚至?xí)^(guò)正常聽(tīng)力者,這意味著基于深度神經(jīng)網(wǎng)絡(luò)的方法,有望解決迄今為止研究人員花費(fèi)無(wú)數(shù)精力的“雞尾酒會(huì)效應(yīng)”問(wèn)題。

    未來(lái)展望

    現(xiàn)實(shí)生活場(chǎng)景中,噪聲是多樣化的,因此應(yīng)用到實(shí)際場(chǎng)景中,無(wú)論是噪聲分類(lèi)器+深度降噪自編碼器降噪方法,還是深度神經(jīng)網(wǎng)絡(luò)+理想二值掩蔽降噪方法,都需要學(xué)會(huì)快速濾除同時(shí)出現(xiàn)的多種類(lèi)型噪聲,包括訓(xùn)練集中未出現(xiàn)過(guò)的新噪聲。研究人員通過(guò)增加訓(xùn)練集噪聲的種類(lèi)和數(shù)量,例如,Wang等人將訓(xùn)練數(shù)據(jù)中噪聲類(lèi)型提高了10000種,不斷優(yōu)化改進(jìn)訓(xùn)練后的模型,以實(shí)現(xiàn)基于機(jī)器學(xué)習(xí)語(yǔ)音增強(qiáng)的現(xiàn)實(shí)應(yīng)用意義。

    另外,計(jì)算復(fù)雜度目前是基于DNN的降噪方法在助聽(tīng)設(shè)備中應(yīng)用的關(guān)鍵問(wèn)題。由于其多層結(jié)構(gòu),DNN模型在運(yùn)行時(shí)需要大量?jī)?nèi)存和高計(jì)算成本。因此,保持其性能的同時(shí),減少在線計(jì)算量,以此來(lái)簡(jiǎn)化DNN模型的架構(gòu),這樣的要求是非常苛刻的。最近,研究人員提出了許多方法來(lái)制備基于DNN的高度可重構(gòu)且節(jié)能的處理器,用來(lái)實(shí)施各類(lèi)模式分類(lèi)和回歸任務(wù)[33-39]。同時(shí),研究人員也在努力解決高計(jì)算成本的問(wèn)題。例如,蒸餾方法[40]將復(fù)雜模型轉(zhuǎn)換成到更適合部署的簡(jiǎn)化模型。另一個(gè)著名的方法是在基于深度學(xué)習(xí)的模型中,對(duì)參數(shù)進(jìn)行二進(jìn)制化處理以減少內(nèi)存大小和訪問(wèn)量[41]。隨著深度學(xué)習(xí)算法和硬件的快速發(fā)展,上述提到的降噪方法可以在不久的將來(lái)在助聽(tīng)設(shè)備中實(shí)現(xiàn)應(yīng)用。此外,已有多個(gè)系統(tǒng)可以將助聽(tīng)設(shè)備與智能手機(jī),電視機(jī)或MP3播放器等其他設(shè)備集成。這些設(shè)備可以為助聽(tīng)設(shè)備提供更優(yōu)越的計(jì)算和存儲(chǔ)能力,因此,這也可以很好地解決基于機(jī)器學(xué)習(xí)降噪方法的高計(jì)算成本問(wèn)題。目前,諸如美國(guó)明尼蘇達(dá)州的Starkey聽(tīng)力技術(shù)公司,正致力于將機(jī)器學(xué)習(xí)技術(shù)與實(shí)際助聽(tīng)設(shè)備結(jié)合。

    機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展很大程度地推動(dòng)了各行業(yè)的智能化發(fā)展,相信在不久的將來(lái),基于機(jī)器學(xué)習(xí)實(shí)現(xiàn)助聽(tīng)設(shè)備的智能語(yǔ)音增強(qiáng)技術(shù)將得以應(yīng)用,為聽(tīng)力障礙者乃至整個(gè)人類(lèi)帶來(lái)福音。

參考文獻(xiàn)

SchmidtRO,Multipleemitterlocationandsignalparameterestimation.IEEETransactionsonAntennasandPropagation,1986.

WoutersJ,VandenBJ,Speechrecognitioninnoiseforcochlearimplanteeswithatwo-microphonemonauraladaptivenoisereductionsystem.EarHear,2001.

WeissMR,AschkenasyE,ParsonsTW,StudyanddevelopmentoftheINTELtechniqueforimprovingspeechintelligibility.1975.

HochbergI,BoothroydA,WeissM,etal.,Effectsofnoiseandnoisesuppressiononspeechperceptionbycochlearimplantusers.EarHear,1992.

EphraimY,MalahD,Speechenhancementusingaminimummean-squareerrorlog-spectralamplitudeestimator.IEEETransactionsonSpeech&AudioProcessing,2003.

ScalartP,FilhoJV,Speechenhancementbasedonapriorisignaltonoiseestimation.IEEEInternationalConferenceonAcoustics,Speech,andSignalProcessing,1996.

RezayeeA,GazorS,AnadaptiveKLTapproachforspeechenhancement.IEEETransactionsonSpeech&AudioProcessing,2001.

HuY,LoizouPC,Ageneralizedsubspaceapproachforenhancingspeechcorruptedbycolorednoise.IEEETransactionsonSpeech&AudioProcessing,2003.

LoizouPC,LoboA,HuY.,Subspacealgorithmsfornoisereductionincochlearimplants.JournaloftheAcousticalSocietyofAmerica,2005.

BuechnerA,BrendelM,SaalfeldH,etal.,ResultsofapilotstudywithasignalenhancementalgorithmforHiRes120cochlearimplantusers.Otology&Neurotology,2010.

DawsonPW,MaugerSJ,HersbachAA,Clinicalevaluationofsignal-to-noiseratio-basednoisereductioninNucleus®cochlearimplantrecipients.EarHear,2011.

YuT,LaiYH,Generalizedmaximumaposteriorispectralamplitudeestimationforspeechenhancement.SpeechCommunication,2016.

LoizouPC,SpeechEnhancement:TheoryandPractice.CRCPress,2007.

StickneyGS,ZengFG,LitovskyR,etal.,Cochlearimplantspeechrecognitionwithspeechmaskers.JournaloftheAcousticalSocietyofAmerica,2004.

XuY,DuJ,DaiLR,etal.,Aregressionapproachtospeechenhancementbasedondeepneuralnetworks.IEEE/ACMTransactionsonAudioSpeech&LanguageProcessing,2015.

CohenI,Noisespectrumestimationinadverseenvironments:Improvedminimacontrolledrecursiveaveraging.IEEETransactionsonSpeech&AudioProcessing,2003.

LaiYH,ChenF,WangSS,etal.,Adeepdenoisingautoencoderapproachtoimprovingtheintelligibilityofvocodedspeechincochlearimplantsimulation.IEEETransactionsonBiomedicalEngineering,2017.

LaiYH,TsaoY,LuX,etal.,Deeplearning-basednoisereductionapproachtoimprovespeechintelligibilityforcochlearimplantrecipients.EarHear,2018.

DavisS,MermelsteinP.,Comparisonofparametricrepresentationsformonosyllabicwordrecognitionincontinuouslyspokensentences.IEEETransactionsonSpeech&AudioProcessing,1980.

RabinerL,JuangBH,Fundamentalsofspeechrecognition.1993.

RasanenO,LeppanenJ,LaineUK,etal.,Comparisonofclassifiersinaudioandaccelerationbasedcontextclassificationinmobilephones.SignalProcessingConference,2011.

ChenJ,WangY,YohoSE,etal.,Large-scaletrainingtoincreasespeechintelligibilityforhearing-impairedlistenersinnovelnoises.JournaloftheAcousticalSocietyofAmerica,2016.

FuruiS,Cepstralanalysistechniqueforautomaticspeakerverification.IEEETransactionsonSpeech&AudioProcessing,1981.

MaL,MilnerB,SmithD,Acousticenvironmentclassification.ACMTransactionsonSpeechandLanguageProcessing,2006.

JiangH,Confidencemeasuresforspeechrecognition:Asurvey.SpeechCommunication,2005.

Lu,X.,Tsao,Y.,Matsuda,S.,etal.,Speechenhancementbasedondeepdenoisingautoencoder.ProcofInterspeech,2013.

MaJ,HuY,LoizouPC,Objectivemeasuresforpredictingspeechintelligibilityinnoisyconditionsbasedonnewband-importancefunctions.JournaloftheAcousticalSocietyofAmerica,2009.

ChenF,LoizouPC,PredictingtheintelligibilityofvocodedandwidebandMandarinChinese.JournaloftheAcousticalSocietyofAmerica,2011.

ChenF,WongLL,QiuJ,etal.,Thecontributionofmatchedenvelopedynamicrangetothebinauralbenefitsinsimulatedbilateralelectrichearing.JournalofSpeechLanguage&HearingResearch,2013.

ChenF,HuY,YuanM.EvaluationofnoisereductionmethodsforsentencerecognitionbyMandarin-speakingcochlearimplantlisteners.EarHear,2015.

LaiYH,TsaoY,ChenF.,Effectsofadaptationrateandnoisesuppressionontheintelligibilityofcompressed-envelopebasedspeech.PlosOne,2015.

WangDL,Deeplearningreinventsthehearingaid.IEEEPress,2017.

BangS,WangJ,LiZ,etal.,A288µWprogrammabledeep-learningprocessorwith270KBon-chipweightstorageusingnon-uniformmemoryhierarchyformobileintelligence.IEEESolid-StateCircuitsConference,2017.

BongK,ChoiS,KimC,etal.,A0.62mWultra-low-powerconvolutional-neural-networkface-recognitionprocessorandaCISintegratedwithalways-onhaar-likefacedetector.IEEESolid-StateCircuitsConference,2017.

DesoliG,ChawlaN,BoeschT,etal.,A2.9TOPS/WdeepconvolutionalneuralnetworkSoCinFD-SOI28nmforintelligentembeddedsystems,IEEESolid-StateCircuitsConference,2017.

MoonsB,UytterhoevenR,DehaeneW,etal.,A0.26-to-10TOPS/Wsubword-paralleldynamic-voltage-accuracy-frequency-scalableconvolutionalneuralnetworkprocessorin28nmFDSOI.IEEESolid-StateCircuitsConference,2017.

PriceM,GlassJ,ChandrakasanAP,Ascalablespeechrecognizerwithdeep-neural-networkacousticmodelsandvoice-activatedpowergating.IEEESolid-StateCircuitsConference,2017.

ShinD,LeeJ,LeeJ,etal.,An8.1TOPS/WreconfigurableCNN-RNNprocessorforgeneral-purposedeepneuralnetworks.IEEESolid-StateCircuitsConference,2017.

WhatmoughPN,LeeSK,LeeH,etal.,A28nmSoCwitha1.2GHz568nJ/predictionsparsedeep-neural-networkenginewith>0.1timingerrorratetoleranceforIoTapplications.IEEESolid-StateCircuitsConference,2017.

HintonG,VinyalsO,DeanJ,Distillingtheknowledgeinaneuralnetwork.ComputerScience,2015.

CourbariauxM,HubaraI,SoudryD,etal.,Binarizedneuralnetworks:Trainingdeepneuralnetworkswithweightsandactivationsconstrainedto+1or-1.2016.

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來(lái)源:中國(guó)傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國(guó)傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來(lái)源“中國(guó)傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來(lái)源的稿件,均來(lái)自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來(lái)源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問(wèn)題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

伺服與運(yùn)動(dòng)控制

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

直驅(qū)與傳動(dòng)

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

中國(guó)傳動(dòng)網(wǎng)

關(guān)注中國(guó)傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

2018年第三期

2018年第三期

圖片閱讀

掃碼關(guān)注小程序

時(shí)刻關(guān)注行業(yè)動(dòng)態(tài)

雜志訂閱

填寫(xiě)郵件地址,訂閱更多資訊:

撥打電話咨詢(xún):13751143319 余女士
郵箱:chuandong@chuandong.cn

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺(jué)
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0
往期雜志
  • 2024年第1期

    2024年第1期

    伺服與運(yùn)動(dòng)控制

    2024年第1期

  • 2023年第4期

    2023年第4期

    伺服與運(yùn)動(dòng)控制

    2023年第4期

  • 2023年第3期

    2023年第3期

    伺服與運(yùn)動(dòng)控制

    2023年第3期

  • 2023年第2期

    2023年第2期

    伺服與運(yùn)動(dòng)控制

    2023年第2期

  • 2023年第1期

    2023年第1期

    伺服與運(yùn)動(dòng)控制

    2023年第1期