淺談ASR和TTS技術(shù)在CTI中的應用
2004/01/02
什么是ASR、TTS?ASR,英文的全稱(chēng)是Automated Speech Recognition,即自動(dòng)語(yǔ)音識別技術(shù),它是一種將人的語(yǔ)音轉換為文本的技術(shù)。語(yǔ)音識別是一個(gè)多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數字信號處理理論、信息論、計算機科學(xué)等眾多學(xué)科緊密相連。由于語(yǔ)音信號的多樣性和復雜性,目前的語(yǔ)音識別系統只能在一定的限制條件下獲得滿(mǎn)意的性能,或者說(shuō)只能應用于某些特定的場(chǎng)合。語(yǔ)音識別系統的性能大致取決于以下4類(lèi)因素:1. 識別詞匯表的大小和語(yǔ)音的復雜性;2. 語(yǔ)音信號的質(zhì)量;3. 單個(gè)說(shuō)話(huà)人還是多說(shuō)話(huà)人;4. 硬件。
TTS,英文全稱(chēng)是TextToSpeech,即文語(yǔ)轉換,又稱(chēng)為計算機語(yǔ)音合成,它的過(guò)程和ASR剛好相反,是把計算機中任意出現的文字轉換成自然流暢的語(yǔ)音輸出。一般認為,語(yǔ)音合成系統包括三個(gè)主要的組成部分:文本分析模塊、韻律生成模塊和聲學(xué)模塊。目前,TTS的技術(shù)已經(jīng)可以達到商業(yè)化的地步。
微軟的SAPI是作為Windows的一部分,已經(jīng)被被集成在Windows里面。相對于其他引擎,他的識別率也比較高,如果做過(guò)適應性調整,識別率可以達到90%以上,而且他的開(kāi)發(fā)包是還可以免費獲取的,各種文檔資源也很齊全,很方便做二次開(kāi)發(fā)。由于SAPI是作為Windows的一個(gè)獨立組件在發(fā)展,版本更新也比較快。
最新的SAPI 3.1提供了基于COM的高級編程接口,應用程序通過(guò)這些接口與語(yǔ)音引擎打交道。SAPI將ASR和TTS功能集成在同一個(gè)語(yǔ)音引擎中,TTS可以將文本和文件合成為語(yǔ)音,ASR則是將人的聲音信號轉換為可讀的文本或文件。
下面,我們針對兩種不同當前情況,站在業(yè)務(wù)開(kāi)發(fā)商的角度,看如何將ASR和TTS功能附加到我們的應用中去。
帶語(yǔ)音接口的PBX這里還是以MPS2000系統為例,MPS2000是一套面向下一代網(wǎng)絡(luò )的、集成了多種業(yè)務(wù)能力的交換平臺。它具有很強的接入和組網(wǎng)能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時(shí),它的業(yè)務(wù)資源也非常豐富,有IVR、會(huì )議、會(huì )議抑制、DTMF、ASR、TTS等資源,能面向各種不同的應用。
在MPS2000系統中,ASR被抽象為一種簡(jiǎn)單的可替代DTMF進(jìn)行語(yǔ)音撥號的資源,用戶(hù)提起電話(huà),可以不用按鍵,直接呼叫某人或者說(shuō)出電話(huà)號碼,就可以呼出。TTS則被抽象為一種文本放音的資源,你可以摒棄以往的放音模式(通過(guò)路由文件播放),而直接把你想說(shuō)的文本向用戶(hù)放出來(lái)
下圖顯示了MPS2000中ASR和TTS的應用層次關(guān)系:
杭州邁可行公司供稿 CTI論壇編輯
下一代網(wǎng)絡(luò )(NGN)的核心組件:軟交換技術(shù) 2009-08-18 |
專(zhuān)業(yè)通信調度系統服務(wù)中石化華東成品油管網(wǎng)工程 2009-05-19 |
邁可行建設江西省政府應急指揮系統 2009-04-21 |
邁可行通信建立新的合作伙伴管理體系 2009-03-17 |
邁可行承建中石油呼和浩特煉油廠(chǎng)混合調度系統 2009-03-06 |