ViaVoice:半個(gè)世紀的求索
2001/10/10
您也許曾經(jīng)為科幻電影中出現的下列場(chǎng)景所吸引:機器人能聽(tīng)懂和服從主人的命令,為其所用。雖然到今天,這樣的機器人還沒(méi)能成為現實(shí),但是作為機器人的“耳朵”,語(yǔ)音識別技術(shù)卻在近幾年有了許多突破性的進(jìn)展,從實(shí)驗室走進(jìn)了我們的生活。目前被廣泛使用的IBM ViaVoice軟件便是其中最典型的代表。
從50年代初期開(kāi)始,IBM公司就在尋求一種更加有效的與計算機系統交互的方式。幾年后,以此為目標的語(yǔ)音識別研究在IBM華生(Watson)研究中心進(jìn)行。研究之初,IBM的科學(xué)家們需要一套十分龐大的機器,研究中心所有的高級計算機資源到了晚上全部被語(yǔ)音識別的訓練和計算所占用。面對比最初想象得多的巨大挑戰,科學(xué)家們不得不把目標降低:只要計算機能聽(tīng)懂有限的詞匯,或者只能聽(tīng)懂某個(gè)人說(shuō)話(huà)即可,不需要聽(tīng)懂每一個(gè)人的話(huà)。但他們從來(lái)都沒(méi)有放棄。經(jīng)過(guò)不懈的努力,終于實(shí)現了一個(gè)個(gè)突破。
這些重要的突破中,將“隱馬爾科夫模型”引入語(yǔ)音識別領(lǐng)域,為語(yǔ)音模型的建立提供了基礎;“n元統計語(yǔ)音模型”讓計算機學(xué)會(huì )了“學(xué)習”和“記憶”人們怎樣用詞;“快速匹配方法”的發(fā)明則顯著(zhù)提高了大詞匯系統識別的速度。它們和其他不勝枚舉的發(fā)明一起,使語(yǔ)音識別技術(shù)走進(jìn)我們的生活。IBM公司的許多科學(xué)家在這個(gè)領(lǐng)域長(cháng)期不懈的努力和獲得的100多項專(zhuān)利,確定了公司技術(shù)上的領(lǐng)先地位。世界上許多研究機構和公司的其他科學(xué)家,也為這一領(lǐng)域的發(fā)展做出了卓越的貢獻。
1997年IBM ViaVoice 4.0的誕生對于語(yǔ)音識別史意義重大。漢語(yǔ)具有同音字多、有聲調、口音復雜等特點(diǎn),因此中文的語(yǔ)音識別技術(shù)被認為是“王冠上的明珠”。在跨越了連續語(yǔ)音、大量詞匯,以及非特定識別人等難關(guān)之后,IBM公司成功地推出了世界上第一個(gè)中文連續語(yǔ)音識別產(chǎn)品——IBM ViaVoice 4.0,它被認為是中文識別領(lǐng)域重要的里程碑。
經(jīng)過(guò)半個(gè)世紀的求索,如今IBM不僅已經(jīng)使機器聽(tīng)懂人話(huà)成為現實(shí),而且ViaVoice還具有語(yǔ)音查詢(xún)、語(yǔ)音上網(wǎng)、網(wǎng)上聊天等許多功能,使用起來(lái)更方便、識別的更準確。它讓人類(lèi)的夢(mèng)想實(shí)現得如此完美!
IBM供稿 CTI論壇編輯
ViaVoice語(yǔ)音上網(wǎng)新概念 2001-11-14 |
IBM ViaVoice更方便更健康 2001-11-14 |
語(yǔ)音識別重在應用 2001-11-14 |
IBM ViaVoice Telephony——完善的中文電話(huà)語(yǔ)音技術(shù) 2001-11-14 |
CRM中的IBM語(yǔ)音技術(shù) 2001-10-10 |