
Google表示,不少開(kāi)發(fā)者向他們反應,也想要將文字轉語(yǔ)音的功能,使用在自己的應用上,因此他們把這項功能放到Google云端平臺,推出云端文字轉語(yǔ)音服務(wù)。
開(kāi)發(fā)者現在可以將云端文字轉語(yǔ)音服務(wù)用在語(yǔ)音回應系統,像是呼叫中心(IVRs),也能在電視、汽車(chē)或是機器人等物聯(lián)網(wǎng)裝置,建置語(yǔ)音回應功能,或是在以文字為主的媒體上,將文章與書(shū)轉成音訊。
Google云端文字轉語(yǔ)音使用了DeepMind所創(chuàng )建的聲音生成模型WaveNet,這個(gè)高傳真的人聲合成技術(shù),可以讓電腦合成的語(yǔ)音更自然。
WaveNet是2016年DeepMind發(fā)表的技術(shù),但是到了今日已有很大的進(jìn)步。以速度來(lái)說(shuō),WaveNet現在Google的云端TPU基礎設備上運作,比起初代,產(chǎn)生原始波形的速度快了一千倍,而且產(chǎn)生1秒鐘的語(yǔ)音只需要50毫秒。
除了速度提高千倍,產(chǎn)生語(yǔ)音的擬真度也得到了長(cháng)足的提升,WaveNet能夠建立每秒24,000樣本的高傳真波形,且采樣分辨率從原本8位元提升到了16位元,因此所得到的人聲語(yǔ)音品質(zhì)更好更自然。
Google表示,比起市面上的電腦語(yǔ)音,人們對WaveNet所合成的語(yǔ)音有更高的接受度。而在語(yǔ)音測試中,WaveNet合成的新美國英語(yǔ)語(yǔ)音,平均得分4.1,比起標準聲音好20%,也與真實(shí)人類(lèi)語(yǔ)音差距減少70%
云端文字轉語(yǔ)音功能現在支援32種聲音12種語(yǔ)言,開(kāi)發(fā)者可以客制化音調、語(yǔ)速以及音量增益,并且能轉存為MP3或是WAV等各式音訊格式。