
微軟語(yǔ)音和對話(huà)研究團隊在去年10月宣布,運用業(yè)界常用的電話(huà)錄音測試集Switchboard,微軟語(yǔ)音識別技術(shù)錯誤率為5.9%,辨識能力可以達到人類(lèi)的水準,近日則宣布,該語(yǔ)音識別技術(shù)的錯誤率已經(jīng)降至5.1%,正式超越專(zhuān)業(yè)的聽(tīng)打記錄人員。
語(yǔ)音識別準確度超越人類(lèi),是微軟過(guò)去25年,一直想要達成的目標,微軟所采用的電話(huà)對話(huà)錄音測試集Switchboard,是語(yǔ)音研究社群采用了超過(guò)20年的測試語(yǔ)音識別系統標準,開(kāi)發(fā)語(yǔ)音識別系統的過(guò)程,城程式需要自動(dòng)記錄不同人講不同議題的對話(huà),像是體育或是政治等。
與去年發(fā)布的正確率相比,微軟用一系列的工具來(lái)改善類(lèi)神經(jīng)網(wǎng)路聲學(xué)和語(yǔ)言模型,將此系統的錯誤率講低,像是,增加了一項結合卷積式網(wǎng)路和雙向的長(cháng)短期記憶演算法的CNN-BLSTM,雙向的長(cháng)短期記憶演算法是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò )(RNN),來(lái)改善聲學(xué)模型。
此外,微軟還透過(guò)聲音的辨識單元Senone、Frame,以及單詞,結合多個(gè)聲學(xué)模型的預測,作為語(yǔ)音識別的方法,并利用過(guò)去歷史對話(huà)紀錄,增強語(yǔ)音識別的語(yǔ)言模型,來(lái)預測對話(huà)接下來(lái)會(huì )講的字詞,如此一來(lái),可以模型更能夠有效地判斷對話(huà)的主題和內容。
這項語(yǔ)音識別是仰賴(lài)微軟自家的深度學(xué)習框架CNTK2.1版,并利用微軟的云端計算的基礎架構,特別是Azure GPUs,大幅地提升訓練模型的效率,也能快速地測試新設計的演算法。
微軟表示,雖然系統辨識Switchboard的錯誤率已經(jīng)達到只有5.1%,是一個(gè)非常大的突破,不過(guò),未來(lái)還有許多可以繼續鉆研的問(wèn)題,像是如何讓機器像人一樣,在吵雜的環(huán)境下,辨識出有腔調的語(yǔ)音、不同風(fēng)格的說(shuō)話(huà)方式和語(yǔ)言。
微軟希望可以這項研究結果應用在微軟自家的產(chǎn)品和服務(wù)上,像是語(yǔ)音個(gè)人助理Cortana和認知服務(wù)等。未來(lái),不只讓機器記錄語(yǔ)音內容,還要能理解對話(huà)的意思和意圖,從語(yǔ)音識別到理解語(yǔ)意,是微軟接下來(lái)主要發(fā)展的語(yǔ)音科技目標。