您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 智能語音前沿技術(shù)——發(fā)音檢錯糾錯和語音轉(zhuǎn)換

智能語音前沿技術(shù)——發(fā)音檢錯糾錯和語音轉(zhuǎn)換

時間：2018-03-07 15:02:26來源：中國傳動網(wǎng)

導(dǎo)語：?到2020年，全球人工智能市場規(guī)?？蛇_到1190億元。艾瑞咨詢預(yù)測，到2020年，中國人工智能市場規(guī)模約91億元

近年來，人工智能在國內(nèi)外掀起了新一輪技術(shù)創(chuàng)新的浪潮，人工智能正在成為產(chǎn)業(yè)革命的新風(fēng)口。據(jù)BBC預(yù)測，到2020年，全球人工智能市場規(guī)模可達到1190億元。艾瑞咨詢預(yù)測，到2020年，中國人工智能市場規(guī)模約91億元。

目前，政策、經(jīng)濟、人才、技術(shù)各方面都為人工智能提供了很好的條件：

(1) 政策：人工智能進入國家戰(zhàn)略層面。國務(wù)院在《關(guān)于積極推進“互聯(lián)網(wǎng)+”行動的指導(dǎo)意見》中將人工智能推上國家戰(zhàn)略層面。在國家“十三五”規(guī)劃的“科技創(chuàng)新-2030項目”中，智能制造和機器人被列為重大發(fā)展工程。2016年，為加快人工智能產(chǎn)業(yè)發(fā)展，國家發(fā)展改革委、科技部、工業(yè)和信息化部、中央網(wǎng)信辦制定了《“互聯(lián)網(wǎng)+”人工智能三年行動實施方案》。2016年科大訊飛、華為等行業(yè)知名企業(yè)，在深圳共同發(fā)布中國《人工智能深圳宣言》，積極探索政、產(chǎn)、學(xué)、研、用合作機制，推動人工智能產(chǎn)業(yè)的協(xié)同發(fā)展。2017年十二屆全國人大會議中，國務(wù)院總理李克強提出，要推動內(nèi)地與港澳深化合作，研究制定“粵港澳大灣區(qū)”城市群發(fā)展規(guī)劃，提升在國家經(jīng)濟發(fā)展和對外開放中的地位與功能。

(2) 經(jīng)濟：互聯(lián)網(wǎng)經(jīng)濟高速發(fā)展，據(jù)艾瑞咨詢估計，2015年中國網(wǎng)絡(luò)經(jīng)濟增長約33%，市場規(guī)模超過千億，并有持續(xù)增長趨勢。2014年開始，投資機構(gòu)在人工智能領(lǐng)域投資金額，數(shù)量均大幅度增加。據(jù)咨詢公司Venture Scanner統(tǒng)計，2016年全球人工智能公司已突破1000家，融資高達48億美元。

(3) 人才：在中國科研投入占全球的20%，僅次于美國，信息技術(shù)互聯(lián)網(wǎng)領(lǐng)域是國家的重點投入對象，近五年，科研人員保持20%的持續(xù)增長，為人工智能的發(fā)展提供了充足的人才支撐。

(4) 技術(shù)：目前我國已在計算機視覺，智能語音等領(lǐng)域?qū)崿F(xiàn)了技術(shù)突破，處于國際領(lǐng)先水平。國內(nèi)具有代表性的公司或機構(gòu)包括：百度，阿里巴巴，騰訊，科大訊飛，曠視科技，商湯科技等。

在人工智能技術(shù)中，智能語音技術(shù)是一個重要的分支，是人機交互過程中不可或缺的部分。語音技術(shù)包含：語音識別、語音合成、聲紋識別、語音評測、語音轉(zhuǎn)換等，其中發(fā)音檢錯糾錯和語音轉(zhuǎn)換技術(shù)近期有了新的突破。

發(fā)音檢錯糾錯

英語是當今世界上最為通用的語言，其重要性已為所有人深刻領(lǐng)會。由于英語的強勢地位，目前被超過100個國家作為外語教學(xué)的第一外語。據(jù)EF英孚教育發(fā)布的《2015年英語熟練度指標報告》顯示，中國人每年花費千億元用于英語培訓(xùn)，但實際效果依然不佳，在全球70個國家和地區(qū)中，中國大陸排名47位。雖然英語水平仍處于低熟練程度，但近年來呈現(xiàn)明顯增長趨勢。據(jù)中國社會調(diào)查所公布的中國居民消費調(diào)查報告統(tǒng)計，中國已成為全球英語培訓(xùn)領(lǐng)域增長速度最快的市場，年增長率高達12%。在如此廣闊的英語培訓(xùn)市場下，線下英語培訓(xùn)面臨著師資數(shù)量短缺，教師口語水平參差不齊、“添鴨式”與“應(yīng)試式”教學(xué)以及無法有效改善口語聽力水平等存在諸多矛盾。

另外，中文拼音與英語音標發(fā)音方法和位置有所區(qū)別，但許多中國學(xué)生在剛接觸英語時習(xí)慣用熟悉的中文拼音來標注、記憶英語單詞的發(fā)音。久而久之，養(yǎng)成了不良的發(fā)音習(xí)慣，同時還由于中國學(xué)生普遍靦腆，上課口語訓(xùn)練時間不足，課后口語練習(xí)得不到反饋，以及大部分英語老師的發(fā)音不標準等因素造成了中國學(xué)生的發(fā)音不標準。由于發(fā)音一直是中國學(xué)生學(xué)習(xí)英語時一個難關(guān)，有許多人愿意為了糾正發(fā)音，支付高昂的學(xué)費，請外教糾正自己的發(fā)音。隨著移動在線語言學(xué)習(xí)的興起，催生了AI語音評測，促進了AI糾音技術(shù)的發(fā)展。

雖然目前市場上有許多在線的英語學(xué)習(xí)軟件，但大多數(shù)都只是簡單地播放音視頻學(xué)習(xí)資料，學(xué)生跟讀，系統(tǒng)播放錄音。只有為數(shù)不多的軟件，具備打分評測的功能，而評測的準確性，一直為學(xué)生所詬病。因此，市場迫切需要能提供高可靠的打分評測技術(shù)。

圖1 目前市面相關(guān)產(chǎn)品

另外，除了提供高可靠的打分評測技術(shù)，學(xué)生也迫切需要具體的發(fā)音診斷的反饋建議。因為單純的打分評測技術(shù)，只能夠指出學(xué)生的發(fā)音不夠好，但學(xué)生并不理解自己的發(fā)音錯誤在哪里，及應(yīng)該如何改進發(fā)音。比如把讀錯的單詞標紅出來，需反復(fù)對比原聲才能分析出錯誤的細節(jié)，這在明顯讀錯的情況下還好實現(xiàn)，如：steak/steik/，讀錯為/sti:k/。

但以下情況就非常困難了，特別是學(xué)習(xí)者不熟悉英語的拼讀發(fā)音規(guī)則，語法的條件下。

（1）如records/'rek??dz/，讀錯為/'rek??ds/。

（2）如the apple /ei/，讀錯為/e?/（the在輔音前發(fā) /e?/，元音前發(fā) /ei/）。

（3）長短音如book/b?k/，讀錯為/bu?k/；Lily/'l?li:/，讀錯為/'li:li:/。

如果學(xué)習(xí)者在反復(fù)練習(xí)過程中不能及時發(fā)現(xiàn)具體的錯誤細節(jié)，會降低學(xué)習(xí)效率和興趣，甚至反復(fù)錯誤發(fā)音，產(chǎn)生錯誤的肌肉記憶。這個問題，在學(xué)術(shù)研究上被稱為“錯誤發(fā)音檢測及診斷”。為了解決這個問題，在過去的十多年中，世界上的許多頂級科研機構(gòu)都投入了大量的人力物力，其中最具影響力的包括香港中文大學(xué)，清華大學(xué)，臺灣大學(xué)，美國麻省理工大學(xué)，新加坡資訊通信研究院，微軟亞洲研究院，IBM等等。

圖2 多任務(wù)學(xué)習(xí)的聲學(xué)音素模型

“錯誤發(fā)音檢測及診斷”的難點在于它們不同于一般的語音識別技術(shù)，對于訓(xùn)練模型和訓(xùn)練數(shù)據(jù)有著更嚴格的要求，并且不同母語的人群在學(xué)習(xí)英語的過程中易出現(xiàn)的錯誤也不同。因此要收集大量以中文為母語的人群的英文錄音，并邀請專業(yè)人士對數(shù)據(jù)進行了人工標注。隨著深度學(xué)習(xí)的發(fā)展，和多年的技術(shù)積累，聲?？萍祭罾げ┦康热藢崿F(xiàn)了此領(lǐng)域的重大突破，利用深度神經(jīng)網(wǎng)絡(luò)對聲學(xué)特征和標準發(fā)音進行預(yù)測，輸出后驗概率（如圖2所示）。不僅實現(xiàn)了對錯誤發(fā)音的檢錯和診斷，還能對重音，語調(diào)，流利度等實現(xiàn)評測（如圖3所示）。

圖3 發(fā)音，重音，音調(diào)檢錯糾錯技術(shù)展示

語音評測技術(shù)的突破讓AI系統(tǒng)成為私人發(fā)音老師成為可能。當系統(tǒng)知道學(xué)生具體的錯誤后，就能自動匹配相應(yīng)的教學(xué)內(nèi)容和練習(xí)題目，實現(xiàn)更精準的自適應(yīng)推薦。如果新技術(shù)能得到普及，那將大大改善中國學(xué)生的發(fā)音現(xiàn)狀，特別是解決農(nóng)村鄉(xiāng)鎮(zhèn)地區(qū)的教育資源和語言環(huán)境問題。

另外，隨著中國在國際上地位的提升，特別是一帶一路的推動，愈來愈多外國人開始學(xué)習(xí)漢語，資料顯示全球?qū)W習(xí)漢語的外國人已經(jīng)超過1億。而中文發(fā)音是中文學(xué)習(xí)中的重大難題，發(fā)音評測的新技術(shù)能針對外國中文學(xué)習(xí)者的發(fā)音錯誤的特點，利用可靠的發(fā)音自動評測方法及時、準確地糾正發(fā)音錯誤，可以大大提高中文輔助語音教學(xué)系統(tǒng)的教學(xué)效果。

語音轉(zhuǎn)換

隨著語音信號處理技術(shù)（包括語音識別和語音合成）的發(fā)展，在人機交互中語音已成為最自然最方便交互方式之一。語音不僅可以傳遞信息，也可以傳遞情感、態(tài)度和說話人的個人特征。其中，說話人的個人特征在我們?nèi)粘＝涣髦邪缪葜匾巧?，它允許我們在電話、廣播節(jié)目、電影等媒體中區(qū)分說話人。除此之外，智能語音助手變得越來越流行，比如 Apple Siri、Microsoft Cortana、Amazon Alexa。大多數(shù)人對語音助手的音色有很強的偏好，因此生成具有特別音色的語音在人機交互領(lǐng)域非常重要。

圖4 語音轉(zhuǎn)換示意圖

上述場景可歸結(jié)為語音轉(zhuǎn)換（Voice Conversion）問題，目標在于修改非目標說話人Non-target（NT）Speaker的語音音色，使其聽起來像是目標說話人Target（T）Speaker的語音，但同時保持說話的內(nèi)容T- Content不變（如圖4所示）。

深度學(xué)習(xí)是人工智能領(lǐng)域劃時代的革命技術(shù)，隨著深度學(xué)習(xí)的應(yīng)用，合成語音和轉(zhuǎn)換語音的自然度和流暢度都有很大的提升。在語音合成領(lǐng)域，Google Deepmind 在2016年提出的Wavenet模型將自然度提高了50%。2017年Yoshua Bengio等提出端對端合成模型，使得模型可以從文本直接生成語音而不需要前端預(yù)處理。在國內(nèi)，康世胤等在2013年將深度信念網(wǎng)絡(luò)（Deep Belief Networks）用于語音合成，為學(xué)界業(yè)界最早之一。2017年，百度研究院提出Deep Voice模型改進了語音合成速度，實驗證明該模型可以用于實時語音合成。

語音轉(zhuǎn)換技術(shù)的最早嘗試在1988年由Abe等學(xué)者完成。在1988年到2013年期間，大部分算法基于Codebook Mapping、Frequency Warping、Unit Selection、Gaussian Mixture Models。2013年開始，深度學(xué)習(xí)被應(yīng)用到語音轉(zhuǎn)換中，Nakashika等將深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks）用于在高維空間中，將非目標說話人語音映射到目標說話人語音。雖然語音轉(zhuǎn)換技術(shù)較以前有很大提升，但是語音自然度和音色相似度方面仍有很大的改善空間，另外在實用適用性方面不夠完善比如只能支持特定人到特定目標人的轉(zhuǎn)換（一轉(zhuǎn)一），以及需要嚴苛的數(shù)據(jù)條件，需要目標人上千句的語音數(shù)據(jù)。

圖5 深度循環(huán)神經(jīng)網(wǎng)絡(luò)（DBLSTM-RNNs）示意圖

在2015年，聲?？萍悸?lián)合創(chuàng)始人孫立發(fā)博士團隊等利用深度循環(huán)神經(jīng)網(wǎng)絡(luò)（DBLSTM-RNNs）來改進轉(zhuǎn)換語音的自然度和流暢度（如圖5所示），傳統(tǒng)的深度神經(jīng)網(wǎng)絡(luò)DNN只能映射單一幀到單一幀之間的關(guān)系忽略了語音連續(xù)信號幀之間的相關(guān)性，DBLSTM-RNNs很好的解決了這個問題從而可以提升自然度和流程度。

圖6 非平行語句多對一語音轉(zhuǎn)換框架圖

在2016年，孫立發(fā)博士等利用從語音識別模型提取到的后驗概率來映射非目標說話人和目標說話人（如圖6所示），可以實現(xiàn)多對一的轉(zhuǎn)換并且降低了對訓(xùn)練數(shù)據(jù)的要求，大大提高了語音轉(zhuǎn)換技術(shù)的實用性。語音轉(zhuǎn)換具有廣泛的應(yīng)用：

（1）個性化語音合成。將語音轉(zhuǎn)換技術(shù)與現(xiàn)有的語音合成系統(tǒng)結(jié)合，生成用戶想要的音色。

（2）計算機輔助語言學(xué)習(xí)中的個性化語音反饋。目前語言學(xué)習(xí)者在學(xué)習(xí)的過程中參照的標準發(fā)音是統(tǒng)一的錄音，語音轉(zhuǎn)換系統(tǒng)可以合成出具有用戶自己音色的標準發(fā)音，幫助用戶進行跟讀對比。

（3）機器翻譯。機器翻譯技術(shù)可以將一句語音從一種語言翻譯到另外一種語言，而語音轉(zhuǎn)換技術(shù)可以輔助機器翻譯，讓翻譯后的語音仍然保持說話人的音色。

（4）語言障礙患者的個性化輔助。語言障礙為中風(fēng)、帕金森等疾病的常見后遺癥。語言障礙會影響患者的日常交流和個性化和情感表達。語音轉(zhuǎn)換技術(shù)加上語音合成技術(shù)可以輔助患者進行正常的語音溝通，并且找回自己聲音的音色。

（5）娛樂領(lǐng)域。潛在應(yīng)用包括電影電視配音，游戲配音，導(dǎo)航配音等。

孫立發(fā)博士

香港中文大學(xué)博士，中國科學(xué)技術(shù)大學(xué)學(xué)士，曾任硅谷蘋果實習(xí)生。研究方向主要為語音轉(zhuǎn)換，語音合成，2016年榮獲頂級國際會議ICME2016唯一一個最佳論文獎。曾任香港中國創(chuàng)新創(chuàng)業(yè)協(xié)會理事, 全球青年領(lǐng)導(dǎo)力聯(lián)盟GYL香港社區(qū)聯(lián)席主席，香港中文大學(xué)內(nèi)地學(xué)生學(xué)者聯(lián)誼會CSSA主席。

現(xiàn)為聲?？萍悸?lián)合創(chuàng)始人兼CEO，專注于人工智能+在線教育，2017年聲?？萍紭s膺中國創(chuàng)新創(chuàng)業(yè)大賽全國第五名，為廣東省唯一一個入選總決賽的初創(chuàng)企業(yè)，為唯一一個入選總決賽的智能語音企業(yè)。

李坤博士

曾任香港中文大學(xué)研究助理，博士后研究員。擁有5項國內(nèi)及國際專利，發(fā)表超過15篇學(xué)術(shù)論文。其論文曾獲 ICME 2016年度最佳論文獎，并榮登IEEE/ACM transactions期刊封面（2017年）。同時是多家國際頂級語音期刊審稿人，包括IEEE/ACM transactions, Computer Speech & Language, The Journal of the Acoustical Society of America.

李坤博士于2016年創(chuàng)立聲希科技，主要負責(zé)開發(fā)基于人工智能的語言學(xué)習(xí)系統(tǒng)。他帶領(lǐng)的團隊獲得多項政府及專業(yè)團體的資助，包括深圳科創(chuàng)委和香港數(shù)碼港的創(chuàng)業(yè)資助，累計金額超過100萬人民幣。其團隊屢次摘得創(chuàng)業(yè)大獎，包括深圳市創(chuàng)新創(chuàng)業(yè)大賽互聯(lián)網(wǎng)行業(yè)三等獎、中國創(chuàng)新創(chuàng)業(yè)大賽互聯(lián)網(wǎng)行業(yè)三等獎等。目前，李坤博士開發(fā)的技術(shù)已成功應(yīng)用于百詞斬、繽紛英語、玩瞳等多家教育公司的產(chǎn)品。

標簽：

分享到：

上一篇：雕銑機解決方案

下一篇：一種基于強化注意力機制和序...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點