首頁(yè)>>廠(chǎng)商>>交換機/ACD系統平臺廠(chǎng)商>>杭州邁可行

淺談ASR和TTS技術(shù)在CTI中的應用

2004/01/02

什么是ASR、TTS?

  計算機技術(shù)總是在朝著(zhù)功能更強大、使用更方便的方向發(fā)展,用戶(hù)的需求永遠都是技術(shù)前進(jìn)的動(dòng)力。ASR和TTS的出現,讓人和計算機的距離更加靠近,人機接口更加自然。由于技術(shù)(識別率不夠高)和人們習慣上的原因,ASR離真正的普及還有一段距離。但是,在通信領(lǐng)域,由于CTI的廣泛應用,計算機技術(shù)不斷融入通信平臺,這項技術(shù)正在如火似涂的發(fā)展、普及。VoiceXML就是一個(gè)很好的例子,它的應用就是以ASR和TTS作為基礎的。

  ASR,英文的全稱(chēng)是Automated Speech Recognition,即自動(dòng)語(yǔ)音識別技術(shù),它是一種將人的語(yǔ)音轉換為文本的技術(shù)。語(yǔ)音識別是一個(gè)多學(xué)科交叉的領(lǐng)域,它與聲學(xué)、語(yǔ)音學(xué)、語(yǔ)言學(xué)、數字信號處理理論、信息論、計算機科學(xué)等眾多學(xué)科緊密相連。由于語(yǔ)音信號的多樣性和復雜性,目前的語(yǔ)音識別系統只能在一定的限制條件下獲得滿(mǎn)意的性能,或者說(shuō)只能應用于某些特定的場(chǎng)合。語(yǔ)音識別系統的性能大致取決于以下4類(lèi)因素:1. 識別詞匯表的大小和語(yǔ)音的復雜性;2. 語(yǔ)音信號的質(zhì)量;3. 單個(gè)說(shuō)話(huà)人還是多說(shuō)話(huà)人;4. 硬件。

  TTS,英文全稱(chēng)是TextToSpeech,即文語(yǔ)轉換,又稱(chēng)為計算機語(yǔ)音合成,它的過(guò)程和ASR剛好相反,是把計算機中任意出現的文字轉換成自然流暢的語(yǔ)音輸出。一般認為,語(yǔ)音合成系統包括三個(gè)主要的組成部分:文本分析模塊、韻律生成模塊和聲學(xué)模塊。目前,TTS的技術(shù)已經(jīng)可以達到商業(yè)化的地步。

SAPI簡(jiǎn)介

  目前,市場(chǎng)上有很多比較成熟的語(yǔ)音ASR和TTS產(chǎn)品,而且他們大多數都支持二次開(kāi)發(fā),如微軟的Speech Application SDK(SASDK)、IBM的Dutty++等。他們能識別(生成)英語(yǔ)、日語(yǔ)和中文等不同國家的語(yǔ)言,Dutty++甚至能夠識別某些地區的方言,如廣東的方言-粵語(yǔ)。下面我們以SAPI作為例子,簡(jiǎn)單的介紹一下ASR和TTS的開(kāi)發(fā)引擎。

  微軟的SAPI是作為Windows的一部分,已經(jīng)被被集成在Windows里面。相對于其他引擎,他的識別率也比較高,如果做過(guò)適應性調整,識別率可以達到90%以上,而且他的開(kāi)發(fā)包是還可以免費獲取的,各種文檔資源也很齊全,很方便做二次開(kāi)發(fā)。由于SAPI是作為Windows的一個(gè)獨立組件在發(fā)展,版本更新也比較快。

  最新的SAPI 3.1提供了基于COM的高級編程接口,應用程序通過(guò)這些接口與語(yǔ)音引擎打交道。SAPI將ASR和TTS功能集成在同一個(gè)語(yǔ)音引擎中,TTS可以將文本和文件合成為語(yǔ)音,ASR則是將人的聲音信號轉換為可讀的文本或文件。


如何將ASR和TTS功能附加到CTI應用中去

  對于設備提供商和業(yè)務(wù)提供商,他們采用語(yǔ)音識別和文語(yǔ)轉換的方式可能不太一樣。某些比較先進(jìn)的交換平臺,已經(jīng)在交換機的內部實(shí)現了ASR和TTS的功能,并作為標準接口的一部分對外提供,業(yè)務(wù)開(kāi)發(fā)商只需要簡(jiǎn)單的調用他們即可以在業(yè)務(wù)中使用該功能。如杭州邁可行的MPS2000交換系統,他們就集成了ASR和TTS,并將他們作為統一業(yè)務(wù)接口(USI)的一部分對外提供。而對那些應用開(kāi)發(fā)商來(lái)說(shuō),大部分的時(shí)候并沒(méi)有這么幸運,他們選擇的交換機可能大多數都不會(huì )支持ASR和TTS,因此,要想在業(yè)務(wù)中加入這些功能的話(huà),只有自己基于某種引擎進(jìn)行二次開(kāi)發(fā)。

  下面,我們針對兩種不同當前情況,站在業(yè)務(wù)開(kāi)發(fā)商的角度,看如何將ASR和TTS功能附加到我們的應用中去。

帶語(yǔ)音接口的PBX

  目前,市場(chǎng)上真正支持ASR功能的開(kāi)發(fā)式業(yè)務(wù)接口并不多,主要有微軟的TAPI電話(huà)應用接口和邁可行的USI(統一業(yè)務(wù)接口)。這兩種接口都不是標準的電話(huà)業(yè)務(wù)接口,不過(guò),他們的應用卻很廣泛。

  這里還是以MPS2000系統為例,MPS2000是一套面向下一代網(wǎng)絡(luò )的、集成了多種業(yè)務(wù)能力的交換平臺。它具有很強的接入和組網(wǎng)能力,支持V5.2、SS7、ISDN PRI等信令,以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時(shí),它的業(yè)務(wù)資源也非常豐富,有IVR、會(huì )議、會(huì )議抑制、DTMF、ASR、TTS等資源,能面向各種不同的應用。

  在MPS2000系統中,ASR被抽象為一種簡(jiǎn)單的可替代DTMF進(jìn)行語(yǔ)音撥號的資源,用戶(hù)提起電話(huà),可以不用按鍵,直接呼叫某人或者說(shuō)出電話(huà)號碼,就可以呼出。TTS則被抽象為一種文本放音的資源,你可以摒棄以往的放音模式(通過(guò)路由文件播放),而直接把你想說(shuō)的文本向用戶(hù)放出來(lái)

下圖顯示了MPS2000中ASR和TTS的應用層次關(guān)系:


不帶語(yǔ)音接口的PBX

  對于不帶語(yǔ)音接口的PBX,就需要業(yè)務(wù)開(kāi)發(fā)商自己去選擇合適的平臺,包括媒體采集設備、語(yǔ)音識別引擎等,并在此基礎上進(jìn)行二次開(kāi)發(fā)。

下面這副圖描述了這種應用的業(yè)務(wù)模型:


  媒體采集設備主要用來(lái)采集各種語(yǔ)音信號,如對普通的電信網(wǎng),就是PCM a律信號的采集;而對VOIP應用,采集的信號可能有很多種,包括G.711/G.723/G.729等各種語(yǔ)音格式。同時(shí),該設備還需要具備一定的媒體轉換能力,能將各種媒體流轉換為ASR能夠識別的語(yǔ)音格式。

語(yǔ)音識別技術(shù)的前景展望

  隨著(zhù)電信行業(yè)的競爭日益加劇,網(wǎng)絡(luò )運營(yíng)商和業(yè)務(wù)開(kāi)發(fā)商都在尋找不同的業(yè)務(wù)增長(cháng)點(diǎn)去吸引客戶(hù)。ASR和TTS作為一種誘人的新技術(shù),如果能很好的嵌入到增值業(yè)務(wù)的應用中去,必將形成一個(gè)很好的應用前景。

杭州邁可行公司供稿 CTI論壇編輯



相關(guān)鏈接:
下一代網(wǎng)絡(luò )(NGN)的核心組件:軟交換技術(shù) 2009-08-18
專(zhuān)業(yè)通信調度系統服務(wù)中石化華東成品油管網(wǎng)工程 2009-05-19
邁可行建設江西省政府應急指揮系統 2009-04-21
邁可行通信建立新的合作伙伴管理體系 2009-03-17
邁可行承建中石油呼和浩特煉油廠(chǎng)混合調度系統 2009-03-06

分類(lèi)信息:  語(yǔ)音合成TTS_與_語(yǔ)音識別ASR     文摘   技術(shù)_語(yǔ)音合成_文摘   技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 砀山县| 茌平县| 军事| 竹溪县| 渑池县| 沈阳市| 九龙县| 英吉沙县| 宝山区| 政和县| 图们市| 普宁市| 延安市| 肥东县| 航空| 类乌齐县| 中方县| 彩票| 衢州市| 西安市| 东乌珠穆沁旗| 乌鲁木齐县| 舞钢市| 鞍山市| 屯昌县| 读书| 涞水县| 渑池县| 卫辉市| 招远市| 忻城县| 许昌市| 庆元县| 河津市| 鞍山市| 吴忠市| 工布江达县| 黑水县| 连江县| 墨江| 梓潼县| http://444 http://444 http://444 http://444 http://444 http://444