
可在錄音檔中搜尋關(guān)鍵字、直接跳到關(guān)鍵字出現的段落
「語(yǔ)音」很可能是繼打字之后,未來(lái)人類(lèi)和電腦溝通的主要方式,其不僅解放我們的雙手,互動(dòng)速度也更快。Google在去年發(fā)布這款能將語(yǔ)音轉成文字的云端語(yǔ)音API,并將該功能整合進(jìn)多款自家服務(wù)中,如語(yǔ)音助理、語(yǔ)音搜尋、翻譯、聽(tīng)寫(xiě)輸入等功能。
而這次更新的其中一個(gè)新功能,對常聽(tīng)錄音檔的人相當必備。過(guò)去只有文字檔才能搜尋特定字詞,現在,在Google云端語(yǔ)音API新增「以字為單位的時(shí)間標記」的功能后,語(yǔ)音檔也能做到相同的事,即可在語(yǔ)音檔中搜尋特定字詞出現的位置、直接跳到該段落,且錄音檔播放的同時(shí)也能立即顯示已識別的文字。
支援檔案長(cháng)度增加到3小時(shí),可用于客服中心和自動(dòng)產(chǎn)生影片字幕
此外,Google云端語(yǔ)音API可支援的語(yǔ)音檔案長(cháng)度,也從原本的80分鐘增加到3小時(shí)。Google產(chǎn)品經(jīng)理DanAharon表示,支援更長(cháng)時(shí)間的語(yǔ)音檔案,也能拓展該技術(shù)能應用的場(chǎng)景,例如客服中心可用此分析客服電話(huà)內容,或是用于自動(dòng)生成影片字幕。
語(yǔ)音轉文字支援「表情符號」
在支援語(yǔ)言方面,這次Google更一口氣新增30個(gè)語(yǔ)言,迄今共支援119種語(yǔ)言。Google表示,他們和母語(yǔ)人士合作,請他們念常用的句子,訓練機器學(xué)習模型識別新語(yǔ)言的單字和音調。
特別的是,Google云端語(yǔ)音API不只能識別說(shuō)話(huà)的「內容」,還能識別出「表情符號」。例如,只要念出「眨眼表情符號」或「微笑表情符號」,就會(huì )出現和。不過(guò),該功能目前僅支援英語(yǔ),其他語(yǔ)言將在未來(lái)陸續開(kāi)放。