據悉,CHiME比賽重點(diǎn)解決的是真實(shí)、復雜場(chǎng)景下的語(yǔ)音識別,因此是語(yǔ)音識別領(lǐng)域最高難度的比賽之一。參賽的各個(gè)語(yǔ)音系統需要克服高噪聲、混響等干擾,在咖啡廳、公交車(chē)、街道等日常生活場(chǎng)景中,準確地識別和處理英文語(yǔ)音。



團隊負責人、科大訊飛研究院副院長(cháng)劉聰介紹說(shuō),科大訊飛語(yǔ)音系統在六麥克風(fēng)、雙麥克風(fēng)和單麥克風(fēng)場(chǎng)景這三個(gè)項目中表現優(yōu)異,并大幅刷新了各項目的紀錄。比如,在六麥克風(fēng)場(chǎng)景下,系統的詞錯誤率降至2.24%,相比歷史成績(jì),錯誤率下降了逾六成。
參賽系統凝聚了科大訊飛研究院、中國科學(xué)技術(shù)大學(xué)杜俊教授團隊、西北工業(yè)大學(xué)陳景東教授、佐治亞理工學(xué)院李錦輝教授等國內外知名專(zhuān)家的合作成果。大賽組委會(huì )認為,在復雜場(chǎng)景語(yǔ)音識別任務(wù)上,“該系統已經(jīng)給出了接近完美的解決方案”。
劉聰認為,更具抗噪性、實(shí)用性的語(yǔ)音識別技術(shù),對于促進(jìn)中國制造業(yè)的轉型升級,價(jià)值巨大。“這意味著(zhù),我們可以把語(yǔ)音識別拓展到更多生活場(chǎng)景中去,而不受限于室內、會(huì )場(chǎng)或語(yǔ)音通話(huà)等安靜環(huán)境,從而真正讓語(yǔ)音取代電子屏幕,成為‘萬(wàn)物互聯(lián)’的入口。”
在剛剛發(fā)布的蘋(píng)果iPhone7上,其人工智能“大腦”以及智能家居平臺“HomeKit”引發(fā)業(yè)界關(guān)注。今年6月,蘋(píng)果宣布向第三方開(kāi)發(fā)者開(kāi)放語(yǔ)音接口,被視為向人工智能語(yǔ)音路徑邁進(jìn)的又一步。谷歌、微軟、Nuance等科技企業(yè)也在智能語(yǔ)音領(lǐng)域動(dòng)作頻頻。
語(yǔ)音作為最自然的人機交互方式,隨著(zhù)人工智能的發(fā)展,將在未來(lái)發(fā)揮巨大的作用。中國的智能語(yǔ)音技術(shù)應如何應對全球競爭?
劉聰認為,不管中文還是英文,在語(yǔ)音技術(shù)上是相通的。“在一個(gè)英語(yǔ)語(yǔ)音識別系統的高難度比賽中奪冠,說(shuō)明我們在核心算法上是領(lǐng)先的。”但他也指出,拋開(kāi)技術(shù),在業(yè)務(wù)和產(chǎn)品層面,微軟、谷歌、蘋(píng)果等“巨頭”擁有各自不同的數據優(yōu)勢,可能會(huì )產(chǎn)生更好的用戶(hù)體驗。這是中國智能語(yǔ)音產(chǎn)業(yè)亟待補齊的短板。
CHiME比賽始于2011年,今年由谷歌公司承辦。它由法國計算機科學(xué)與自動(dòng)化研究所、英國謝菲爾德大學(xué)、美國三菱電子研究實(shí)驗室等知名研究機構所發(fā)起,旨在使學(xué)術(shù)界和工業(yè)界提出全新的語(yǔ)音識別解決方案,以進(jìn)一步提升語(yǔ)音識別的實(shí)用性和普適性。