微軟:語(yǔ)音識別技術(shù)突飛猛進(jìn)
Speech Recognition Leaps Forward 翻譯 2011/09/22
2011年國際語(yǔ)音通訊協(xié)會(huì )第12次年會(huì )(Interspeech 2011)于8月28日至31日在意大利佛羅倫薩舉行。來(lái)自微軟研究院的研究人員在會(huì )上發(fā)表了他們的研究成果,這些成果極大地提升了非特定人實(shí)時(shí)語(yǔ)音識別系統的潛力。
來(lái)自微軟雷德蒙研究院的研究員俞棟博士以及來(lái)自微軟亞洲研究院的高級研究員兼研究經(jīng)理Frank Seide是這項研究的帶頭人,兩支團隊精誠合作,在基于人工神經(jīng)網(wǎng)絡(luò )的大詞匯量語(yǔ)音識別研究中取得了重大突破。

語(yǔ)音識別研究的終極目標
語(yǔ)音-文本轉換(voice-to-text)軟件和自動(dòng)電話(huà)服務(wù)等應用背后的關(guān)鍵技術(shù)是語(yǔ)音識別。在這些應用中語(yǔ)音識別準確率是至關(guān)重要的,而為了做到這一點(diǎn),語(yǔ)音-文本轉換軟件通常要求用戶(hù)在安裝過(guò)程中對軟件進(jìn)行“訓練”,軟件本身也要隨著(zhù)時(shí)間的推移慢慢適應用戶(hù)的語(yǔ)音模式。需要與多個(gè)說(shuō)話(huà)者互動(dòng)的自動(dòng)語(yǔ)音服務(wù)則不允許存在使用者對軟件進(jìn)行訓練的環(huán)節,因為它們必須能夠在第一時(shí)間為任何用戶(hù)服務(wù)。為了解決識別準確率較低的問(wèn)題,這些系統要么只能處理很小的詞匯量,要么嚴格限制用戶(hù)可以使用的字句或模式。
自動(dòng)語(yǔ)音識別的最終目標是提供即買(mǎi)即用、可以自動(dòng)快速適應任何說(shuō)話(huà)者的語(yǔ)音識別服務(wù),這個(gè)系統不需要用戶(hù)訓練就可以針對所有用戶(hù)和各種條件,良好地發(fā)揮功用。
“這個(gè)目標在移動(dòng)互聯(lián)網(wǎng)時(shí)代顯得尤為重要,” 俞棟博士表示:“因為語(yǔ)音是智能手機和其他移動(dòng)設備必不可缺的接口模式。雖然個(gè)人移動(dòng)設備是采集和學(xué)習用戶(hù)語(yǔ)音的理想設備,但用戶(hù)只有在初始體驗,也就是在針對該用戶(hù)的模型建立之前的體驗非常良好時(shí),才會(huì )繼續使用語(yǔ)音功能。”
非特定人語(yǔ)音識別技術(shù)對于沒(méi)有機會(huì )或辦法適應用戶(hù)的語(yǔ)音識別系統也非常重要,例如在呼叫中心,來(lái)電者身份是未知的,而且通話(huà)時(shí)間只有幾秒鐘;又例如用戶(hù)可能會(huì )因為擔心隱私問(wèn)題而不愿意在提供“語(yǔ)音-語(yǔ)音(speech-to-speech)”翻譯的網(wǎng)絡(luò )服務(wù)中留存語(yǔ)音樣本。
重燃對神經(jīng)網(wǎng)絡(luò )的興趣
自20世紀50年代以來(lái),人工神經(jīng)網(wǎng)絡(luò )(ANNs),也就是人類(lèi)大腦低級回路的數學(xué)模型,就已經(jīng)為人們所熟知。利用人工神經(jīng)網(wǎng)絡(luò )改善語(yǔ)音識別性能的想法早在20世紀80年代就已出現,而且一項名為人工神經(jīng)網(wǎng)絡(luò )-隱馬爾可夫混合模型(ANN - HMM)的技術(shù)顯示了其在大詞匯量語(yǔ)音識別中的潛力。那么,為什么商用語(yǔ)音識別系統反而不采納人工神經(jīng)網(wǎng)絡(luò )技術(shù)呢?
“這一切都歸結于性能,” 俞棟博士解釋道:“在針對傳統的上下文相關(guān)的高斯混合模型-隱馬爾可夫模型(CD-GMM-HMMs)區分性訓練算法發(fā)明后,高斯混合模型-隱馬爾可夫模型的精度得到了提升,并在大詞匯量語(yǔ)音識別方面的表現超過(guò)了人工神經(jīng)網(wǎng)絡(luò )模型。”
俞棟博士以及微軟雷德蒙研究院語(yǔ)音組的成員們對人工神經(jīng)網(wǎng)絡(luò )模型重新燃起興趣,是因為最近在訓練更加復雜的深層神經(jīng)網(wǎng)絡(luò )(DNNs)方面取得了新的進(jìn)展,這些進(jìn)展使得基于人工神經(jīng)網(wǎng)絡(luò )的自動(dòng)語(yǔ)音識別系統具有超越現有技術(shù)水平的潛力。2010年6月,多倫多大學(xué)實(shí)習生George Dahl加入研究團隊,研究人員開(kāi)始探討如何利用深層神經(jīng)網(wǎng)絡(luò )改善大詞匯量語(yǔ)音識別。
“George帶來(lái)了對深層神經(jīng)網(wǎng)絡(luò )工作原理的深刻見(jiàn)解,” 俞棟博士說(shuō):“而且他在深層神經(jīng)網(wǎng)絡(luò )訓練方面有著(zhù)豐富的經(jīng)驗,而深層神經(jīng)網(wǎng)絡(luò )正是我們所要創(chuàng )建系統的關(guān)鍵組成部分之一。”
語(yǔ)音識別系統在本質(zhì)上就是對語(yǔ)音組成單元進(jìn)行建模。英語(yǔ)中表達發(fā)音方式的大約30個(gè)音素就是這樣的組成單元。最先進(jìn)的語(yǔ)音識別系統使用更短的稱(chēng)為senone的單元,總數達到幾千或上萬(wàn)個(gè)。
之前的基于深層神經(jīng)網(wǎng)絡(luò )的語(yǔ)音識別系統就是對音素進(jìn)行建模。俞棟博士的研究實(shí)現了一次飛躍,當他與語(yǔ)音組首席研究員鄧力博士和首席研究員兼研究經(jīng)理Alex Acero博士討論之后,提出使用深層神經(jīng)網(wǎng)絡(luò )對數以千計的senones(一種比音素小很多的建模單元)直接建模。由此產(chǎn)生的論文《基于預訓練的上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò )的大詞匯語(yǔ)音識別》(Context-Dependent Pre-trained Deep Neural Networks for Large Vocabulary Speech Recognition)(由George Dahl、俞棟、鄧力和Alex Acero合著(zhù))描述了第一個(gè)成功應用于大詞匯量語(yǔ)音識別系統的上下文相關(guān)的深層神經(jīng)網(wǎng)絡(luò )-隱馬爾可夫混合模型(CD-DNN-HMM)。
“也有人嘗試過(guò)上下文相關(guān)的人工神經(jīng)網(wǎng)絡(luò )模型,” 俞棟博士指出:“但他們使用的架構效果不佳。在我們發(fā)現所用的新方法使語(yǔ)音搜索的準確率大大提高地那一刻,我們非常激動(dòng)。我們意識到,通過(guò)使用深層神經(jīng)網(wǎng)絡(luò )對senones直接建模,我們可以比最先進(jìn)的常規CD-GMM-HMM大詞匯量語(yǔ)音識別系統相對誤差率減少16%以上。考慮到語(yǔ)音識別作為一個(gè)活躍的研究領(lǐng)域已經(jīng)存在了50多年,這樣的進(jìn)展確實(shí)具有非常重要的意義。”
為了加速實(shí)驗,研究小組還使用了通用圖形處理器來(lái)進(jìn)行語(yǔ)音模型訓練和解碼。神經(jīng)網(wǎng)絡(luò )的計算在結構上類(lèi)似于電腦游戲中使用的3-D圖形,而現代的圖形卡可以同時(shí)處理近500個(gè)這樣的計算。在神經(jīng)網(wǎng)絡(luò )中運用這種計算能力大大提升了建模可行性。
2010年10月,俞棟博士在微軟亞洲研究院的一次內部研討中介紹了這篇論文,他提到在此基礎上開(kāi)發(fā)性能更強的大詞匯量語(yǔ)音識別聲學(xué)模型面臨以下挑戰:實(shí)現并行訓練和使訓練擴展到更大的訓練集。Seide被這項研究深深觸動(dòng),他隨即加入該項目,并為團隊帶來(lái)了大詞匯量語(yǔ)音識別、系統開(kāi)發(fā)和基準測試等方面的經(jīng)驗。
神經(jīng)網(wǎng)絡(luò )基準測試
“我們通常認為數百上千的senones數量太大而無(wú)法用神經(jīng)網(wǎng)絡(luò )準確地建模和訓練,”Seide說(shuō):“然而,俞棟和他的同事們證明,這樣做不僅是可行的,而且還能顯著(zhù)提高準確率。現在,我們要證明的是這套CD-DNN-HMM模型可以有效使用更多的訓練數據。”

在新項目中,CD-DNN-HMM模型被用于語(yǔ)音-文本轉換,并在研究界公認的極具挑戰性的電話(huà)語(yǔ)音識別標準數據集Switchboard上進(jìn)行評測。
首先,研究團隊對深層神經(jīng)網(wǎng)絡(luò )訓練工具進(jìn)行了改寫(xiě),以支持更大的訓練數據集。然后,在微軟亞洲研究院軟件開(kāi)發(fā)工程師李剛的幫助下,他們將新的模型和工具在含有300小時(shí)語(yǔ)音訓練數據的Switchboard標準數據集上進(jìn)行評測。為了支持如此大量的數據,研究人員建立了一些巨大的神經(jīng)網(wǎng)絡(luò )模型,其中一個(gè)包含了6,600多萬(wàn)神經(jīng)間連結,這是語(yǔ)音識別研究史上最大的同類(lèi)模型。
隨后的基準測試取得了令人驚訝的低字詞錯誤率——18.5%,與最先進(jìn)的常規系統相比,相對錯誤率減少了33%。
“我們開(kāi)始運行Switchboard基準測試時(shí),”回憶說(shuō):“我們只期望實(shí)現類(lèi)似語(yǔ)音搜索任務(wù)中所觀(guān)察到的結果,也就是16-20%的相對改善。整個(gè)訓練過(guò)程大約花費了20天的計算時(shí)間,而且每隔幾個(gè)小時(shí)就產(chǎn)生一個(gè)稍稍改良的新模型。每隔幾個(gè)小時(shí),我都會(huì )迫不及待地測試最新模型。你無(wú)法想象,當相對改善超出預期的20%時(shí),我們有多興奮,而且模型仍在不斷改善,最后定格在30%以上。過(guò)去,只有極少數的單項技術(shù)能在語(yǔ)音識別方面實(shí)現如此幅度的改善。”
由此產(chǎn)生的論文題為《使用上下文相關(guān)深層神經(jīng)網(wǎng)絡(luò )進(jìn)行交談?wù)Z(yǔ)音轉寫(xiě)》(Conversational Speech Transcription Using Context-Dependent Deep Neural Networks)(由Frank Seide、李剛和俞棟合著(zhù)),已經(jīng)于8月29日發(fā)表。這項工作已經(jīng)引起了科研界的高度重視,而研究團隊希望通過(guò)在會(huì )議上發(fā)表這篇論文進(jìn)一步啟迪這條新的研究路徑,并最終將基于深層神經(jīng)網(wǎng)絡(luò )的大詞匯量語(yǔ)音識別推到一個(gè)新的高度。
離未來(lái)更近了一步
這種基于人工神經(jīng)網(wǎng)絡(luò )的非特定人語(yǔ)音識別新方法所實(shí)現的識別準確率比常規系統高出了三分之一以上,俞棟、Seide和他們的團隊向著(zhù)流暢的“語(yǔ)音-語(yǔ)音交互”這一目標又邁進(jìn)了一大步。這項創(chuàng )新簡(jiǎn)化了大詞匯量語(yǔ)音識別中的語(yǔ)音處理,能實(shí)時(shí)識別并取得較高的準確率。
“這項工作仍處于研究階段,還會(huì )面臨很多挑戰,其中最嚴峻的挑戰在于擴展到使用數萬(wàn)小時(shí)訓練數據。我們的研究成果只是一個(gè)開(kāi)始,這一領(lǐng)域將來(lái)還會(huì )有更多令人振奮的進(jìn)展。”Seide說(shuō):“我們的目標是實(shí)現以前沒(méi)法實(shí)現的新的基于語(yǔ)音的流暢服務(wù)。我們相信,這項研究最終將改變我們的工作和生活。想象一下吧:用語(yǔ)音-語(yǔ)音實(shí)時(shí)翻譯進(jìn)行自然流暢的交談,用語(yǔ)音進(jìn)行檢索,或者用交談式自然語(yǔ)言進(jìn)行人機互動(dòng)。”
微軟亞洲研究院博客
相關(guān)閱讀:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
东至县|
宝丰县|
汉沽区|
阿克|
田阳县|
普陀区|
大姚县|
文化|
吉安县|
临沭县|
安福县|
涡阳县|
承德市|
昭觉县|
宁远县|
曲阜市|
资阳市|
会昌县|
收藏|
和政县|
南雄市|
博野县|
玛多县|
洞头县|
肥乡县|
德清县|
巩义市|
道真|
湖南省|
房产|
高淳县|
新干县|
揭东县|
轮台县|
广平县|
循化|
肃南|
鄂尔多斯市|
舒兰市|
顺义区|
和田市|
http://444
http://444
http://444
http://444
http://444
http://444