
Facebook發(fā)表最新的語(yǔ)音辨識技術(shù)Wav2vec-U,這是Wav2vec非監督式版本,可以讓研究人員不需要將語(yǔ)音轉錄成文字資料,就可以訓練模型的方法,Wav2vec-U的效能已經(jīng)可媲美幾年前,使用1,000小時(shí)轉錄語(yǔ)音資料訓練的監督式模型。
無(wú)論是回答問(wèn)題還是執行請求,語(yǔ)音辨識技術(shù)已經(jīng)被廣泛地應用在各種情境,但現今的語(yǔ)音辨識系統,僅對少數語(yǔ)言友善,研究人員解釋?zhuān)@是因為需要大量的轉錄音頻,才能夠訓練出高品質(zhì)的語(yǔ)音辨識系統,但是每種語(yǔ)言、方言或是說(shuō)話(huà)方式并無(wú)法輕易的取得這樣的資料。
因此Facebook開(kāi)發(fā)了Wav2vec-U,這是一種不需要轉錄資料的語(yǔ)音辨識系統方法,Facebook已經(jīng)在Swahili和Tatar等語(yǔ)言測試該模型,由於這些語(yǔ)言缺乏大量帶有標簽的訓練資料,因此一直沒(méi)有高品質(zhì)的語(yǔ)音辨識模型。
Wav2vec-U能純粹從錄制的語(yǔ)音音頻和未配對的文字中學(xué)習,過(guò)程不需要進(jìn)行任何轉錄的工作,與過(guò)去的自動(dòng)語(yǔ)音辨識系統相比,Facebook采用了一種新方法,能夠從未標記的音頻中學(xué)習語(yǔ)音結構,結合Wav2vec-U和k-平均演算法,就能將語(yǔ)音分割出各個(gè)對應的語(yǔ)音單元,像是把CAT這個(gè)詞分割成/K/、/AE/和/T/。
為了要學(xué)習辨識語(yǔ)音中的單詞,研究人員訓練了由生成網(wǎng)絡(luò )(Generator)和判別網(wǎng)絡(luò )(Discriminator)組成的生成對抗網(wǎng)絡(luò )(GAN),其生成網(wǎng)絡(luò )使用嵌入在自我監督表示中的每個(gè)音頻片段,并預測和語(yǔ)言中聲音相對符的音位(Phoneme),目的是要試圖欺騙判別網(wǎng)絡(luò )來(lái)進(jìn)行訓練,判別網(wǎng)絡(luò )會(huì )評估預測的音位序列是否逼真。最初生成網(wǎng)絡(luò )產(chǎn)生的結果很差,但是經(jīng)過(guò)判別網(wǎng)絡(luò )的回饋,生成網(wǎng)絡(luò )產(chǎn)生的結果會(huì )更加準確。
研究人員提到,判別網(wǎng)絡(luò )本身也是一個(gè)神經(jīng)網(wǎng)絡(luò ),透過(guò)將生成網(wǎng)絡(luò )的輸出當做輸入,以及來(lái)自各種音元化的真實(shí)文本,能訓練判別網(wǎng)絡(luò )學(xué)會(huì )區分由生成網(wǎng)絡(luò )產(chǎn)生的輸出和真實(shí)文本。
研究人員將Wav2vec-U與其他模型比較,以評估Wav2vec-U的效能,在TIMIT基準測試中,與最佳的非監督式方法相比,Wav2vec-U錯誤率降低57%,而在更大型的Librispeech基準測試中,Wav2vec-U與基準中歷年最佳效能的監督式模型相比(下圖),Wav2vec-U在沒(méi)有任何轉錄資料訓練下,和2019年使用960小時(shí)轉錄資料訓練的模型效能不相上下。

TIMIT和Librispeech都是用來(lái)評估英文系統的基準測試,但英文由於有大量的標簽資料集,已經(jīng)存在極佳的語(yǔ)音辨識技術(shù),而非監督式語(yǔ)音辨識,將對於缺乏標簽資料的語(yǔ)言,產(chǎn)生極大的影響。因此研究人員也開(kāi)始在Swahili、Tatar和Kyrgyz等標簽資源匱乏的語(yǔ)言中,研究使用Wav2vec-U。
Facebook提到,Wav2vec-U是他們在語(yǔ)音辨識、自我監督學(xué)習和非監督式機器翻譯上多年的成果,讓模型僅透過(guò)觀(guān)察就可以習得解決任務(wù)的能力,這項成果將使得語(yǔ)音技術(shù)為更多人所用。