
繼上個(gè)月發(fā)表云端文字轉語(yǔ)音(Cloud Text-to-Speech)服務(wù)之後,Google在周一(4/9)更新了云端語(yǔ)音轉文字(Cloud Speech-to-Text)服務(wù),提供全新的影片及電話(huà)轉錄模型,也新增了自動(dòng)化標點(diǎn)符號功能。相較於原本的電話(huà)模型,新的強化版電話(huà)轉錄模型(enhanced phone_call model)讓語(yǔ)音辨識的錯誤率減少了54%。
Google於2016年發(fā)表的Cloud Speech-to-Text原名為Cloud Speech API,可辨識包括中文在內的逾120種語(yǔ)言,本周則是該服務(wù)建立以來(lái)最大規模的改版,它提供了4種客制化模式,包括命令與搜尋(command_and_search)、電話(huà)(phone_call)、影片(video)與預設(default),其中,電話(huà)模型適用於基於8khz取樣率記錄的電話(huà)內容,而預設模型則多用在音質(zhì)較好、時(shí)間較長(cháng)、取樣率高於16khz以上的音頻,使用者可依照不同的使用情境選擇適用的模型,以順利將語(yǔ)音轉換成文字。

Google Cloud AI產(chǎn)品經(jīng)理Dan Aharon表示,有許多云端供應商利用客戶(hù)的請求來(lái)改善相關(guān)服務(wù),但基於資料及隱私保護的立場(chǎng),Google并不打算采用這樣的作法,取而代之的是推出業(yè)界首創(chuàng )的「選擇加入計畫(huà)」( opt-in program),讓客戶(hù)主動(dòng)提供資料供Google紀錄與分析,而首個(gè)成品就是強化版電話(huà)轉錄模式,該計畫(huà)成功地讓Cloud Speech-to-Text的電話(huà)轉錄服務(wù)減少了54%的錯誤。
至於新的影片模式則可用來(lái)將影片中的語(yǔ)音轉換成文字,或是轉錄同時(shí)有多人開(kāi)講的語(yǔ)音,該模式所使用的機器學(xué)習技術(shù)與YouTube自動(dòng)化字幕背後的技術(shù)雷同,相較於原本的預設模式,影片模式的轉錄錯誤率也降低了64%。
不管是強化版的語(yǔ)音模式或影片模式現在都只支援英文,預計很快就會(huì )擴張至其它語(yǔ)言。
除了全新的語(yǔ)音及影片模式之外,新版的Cloud Speech-to-Text還準備在將語(yǔ)音轉成文字之後,自動(dòng)加入標點(diǎn)符號,以讓文字更容易閱讀,目前該模式仍屬於測試階段,可提供逗點(diǎn)、句號或問(wèn)號等標點(diǎn)符號的建議。
除了影片模式每15秒的收費為0.012美元之外,其它模式的費用皆為每15秒0.006美元,為了推廣全新的影片模式,截至今年5月31日可享用每15秒0.006美元的優(yōu)惠價(jià)。