獨(dú)家揭秘谷歌語音助理Duplex技術(shù)背后運(yùn)用的技術(shù),真如外界傳聞吊打智障Siri嗎?

時間:2018-05-14

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:谷歌2018年度的開發(fā)者大會(GoogleI/O2018)介紹的AndroidP、Gmail、Gboard、TPUv3等眾多新產(chǎn)品和功能中,尤為亮眼的無疑是個人助理Google Assistant中新增加的Duplex,它可以自己給飯館、發(fā)廊等商業(yè)店面打電話,幫用戶預(yù)約時間。

【獨(dú)家揭秘谷歌語音助理Duplex技術(shù)背后運(yùn)用的技術(shù),真如外界傳聞吊打智障Siri嗎?】谷歌2018年度的開發(fā)者大會(GoogleI/O2018)介紹的AndroidP、Gmail、Gboard、TPUv3等眾多新產(chǎn)品和功能中,尤為亮眼的無疑是個人助理Google Assistant中新增加的Duplex,它可以自己給飯館、發(fā)廊等商業(yè)店面打電話,幫用戶預(yù)約時間。

這幾天媒體各種報道與驚嘆,甚至說起吊打智障Siri。小編找到了谷歌AIblog上來自谷歌的工程師首席工程師YanivLeviathan以及工程副總裁YossiMatias的博客,他們在博客中揭秘了Duplex用到的技術(shù)。

Google duplex是一種用于特定領(lǐng)域,通過撥打電話執(zhí)行任務(wù)的工具。

特定領(lǐng)域是指比如預(yù)定一家餐館、預(yù)定一次理發(fā)等。Google duplex可以進(jìn)行非常自然的人機(jī)對話,聽起來非常地自然,就像真實(shí)的人在進(jìn)行電話撥打一樣。

Google duplex使用到的技術(shù)

借助語言理解、交互、時間控制、語音生成方面的最近技術(shù)發(fā)展,Google Duplex的對話聽起來相當(dāng)真實(shí)自然。

為了處理上面提到的挑戰(zhàn),Duplex的核心是一個RNN網(wǎng)絡(luò),它是由TensorFlowExtended(RFX)構(gòu)建的。為了達(dá)到高精度,谷歌用匿名的電話對話數(shù)據(jù)訓(xùn)練了Duplex的RNN網(wǎng)絡(luò)。

這個網(wǎng)絡(luò)會使用谷歌自動語音識別(ASR)的識別結(jié)果文本,同時也會使用音頻中的特征、對話歷史、對話參數(shù)(比如要預(yù)訂的服務(wù),當(dāng)前時間)等等。

谷歌為每一種不同的任務(wù)分別訓(xùn)練了不同的理解模型,不過不同任務(wù)間也有一些訓(xùn)練語料是共享的。最后,谷歌還利用TFX的超參數(shù)優(yōu)化進(jìn)一步改進(jìn)了模型。

輸入語音先經(jīng)過自動語音識別系統(tǒng)(ASR)處理,生成的文本會與上下文數(shù)據(jù)以及其它輸入一起輸入RNN網(wǎng)絡(luò),生成的應(yīng)答文本再通過文本轉(zhuǎn)語音(TTS)系統(tǒng)讀出來。

總結(jié),Google duplex使用到的技術(shù)包括:

1、使用Google自己的ASR(語音識別)技術(shù),將對話方的語音轉(zhuǎn)化為文字;

2、使用Tensor Flow構(gòu)建基于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò))的模型,基于匿名電話會話數(shù)據(jù)語料庫,進(jìn)行Duplex的訓(xùn)練,訓(xùn)練好的模型,可以根據(jù)對話方的語音轉(zhuǎn)化成的文字,生成相應(yīng)的文字響應(yīng);

3、使用綜合TTS引擎(Tacontron和WaveNet),將深度學(xué)習(xí)模型生成的文字,轉(zhuǎn)化為語音,作為最終的對話響應(yīng);

4、duplex可以和Googleassistant配合使用,Googleassistant可以在后臺調(diào)用duplex,進(jìn)行任務(wù)的執(zhí)行。

Google duplex的對話非常自然的原因

谷歌聯(lián)合使用了一個級聯(lián)TTS引擎和一個生成式TTS引擎(其中使用了Tacotron和WaveNet),根據(jù)不同的情境控制語音的語調(diào)。

這個系統(tǒng)還可以生成一些語氣詞(比如“hmmm”、“uh”),這也讓語音變得更自然。當(dāng)級聯(lián)TTS需要組合變化很大的語音單元,或者需要增加生成的停頓時,語氣詞就會被添加到生成的語音中,這就讓這個系統(tǒng)可以以一種自然的方式向?qū)Ψ绞疽狻笆堑奈衣犞亍被蛘摺拔疫€在考慮”(人類說話的時候就經(jīng)常在思考的同時發(fā)出一些語氣詞)。谷歌的用戶調(diào)查也確認(rèn)了人類覺得帶有語氣詞的對話更熟悉、更自然。

另一方面,系統(tǒng)的延遲也要能夠符合人類的期待。比如,當(dāng)一個人在電話里講了“你好”這樣的簡單句子之后,他們會希望很快聽到一個簡短的回復(fù),這種時候會對延遲更加敏感一些。當(dāng)AI系統(tǒng)檢測到了需要短延遲的情境時,就會使用更快但精度也更低的模型來處理。在某些極端情況下,系統(tǒng)甚至都不會等待RNN運(yùn)行,而是直接使用快速逼近模型(通常也會和更慢的正式回應(yīng)搭配起來使用,就像人類不完全理解另一方的時候會猶豫一樣)。

這樣的做法就可以讓系統(tǒng)達(dá)到100ms之內(nèi)的極短延遲。有趣的是,谷歌發(fā)現(xiàn)在某些情況下要增加一些延遲來讓對話聽起來更自然,比如回復(fù)一個很復(fù)雜的句子的時候。

總結(jié)而言:

1、Duplex被限制在特定的領(lǐng)域進(jìn)行使用,這使得技術(shù)人員可以針對該領(lǐng)域進(jìn)行詳細(xì)的技術(shù)設(shè)計(jì),從而取得有針對性的非常自然的效果;

2、神經(jīng)網(wǎng)絡(luò)模型的輸入不僅是ASR的文字結(jié)果,還包括對話的歷史記錄,使得模型可以更好地理解對話的上下文,生成更加準(zhǔn)確的響應(yīng);

3、Duplex會使用“嗯”、“啊“等表示停頓、思考的語氣詞,或者延長某些詞,好像它正在花時間去思考一個答案,使得語音響應(yīng)聽起來更加自然;由于人們在進(jìn)行真實(shí)的對話時,有時會期待及時快速的響應(yīng),比如說“你好?”在類似的極端情況下,duplex甚至?xí)坏却疃葘W(xué)習(xí)模型的響應(yīng)結(jié)果,而是用更快的類似的響應(yīng),如此,便使得響應(yīng)更加地自然。

據(jù)悉:今年夏天,谷歌就會開始基于Google Assistant測試Duplex,就從預(yù)訂餐館、預(yù)訂發(fā)廊、詢問節(jié)假日的營業(yè)時間這樣的事項(xiàng)開始。

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽科技有限公司

熱搜詞
  • 運(yùn)動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0