首頁>>廠商>>交換機(jī)/ACD系統(tǒng)平臺(tái)廠商>>杭州邁可行

淺談ASR和TTS技術(shù)在CTI中的應(yīng)用

2004/01/02

什么是ASR、TTS？

　　計(jì)算機(jī)技術(shù)總是在朝著功能更強(qiáng)大、使用更方便的方向發(fā)展，用戶的需求永遠(yuǎn)都是技術(shù)前進(jìn)的動(dòng)力。ASR和TTS的出現(xiàn)，讓人和計(jì)算機(jī)的距離更加靠近，人機(jī)接口更加自然。由于技術(shù)（識(shí)別率不夠高）和人們習(xí)慣上的原因，ASR離真正的普及還有一段距離。但是，在通信領(lǐng)域，由于CTI的廣泛應(yīng)用，計(jì)算機(jī)技術(shù)不斷融入通信平臺(tái)，這項(xiàng)技術(shù)正在如火似涂的發(fā)展、普及。VoiceXML就是一個(gè)很好的例子，它的應(yīng)用就是以ASR和TTS作為基礎(chǔ)的。

　　ASR，英文的全稱是Automated Speech Recognition，即自動(dòng)語音識(shí)別技術(shù)，它是一種將人的語音轉(zhuǎn)換為文本的技術(shù)。語音識(shí)別是一個(gè)多學(xué)科交叉的領(lǐng)域，它與聲學(xué)、語音學(xué)、語言學(xué)、數(shù)字信號(hào)處理理論、信息論、計(jì)算機(jī)科學(xué)等眾多學(xué)科緊密相連。由于語音信號(hào)的多樣性和復(fù)雜性，目前的語音識(shí)別系統(tǒng)只能在一定的限制條件下獲得滿意的性能，或者說只能應(yīng)用于某些特定的場(chǎng)合。語音識(shí)別系統(tǒng)的性能大致取決于以下4類因素：1. 識(shí)別詞匯表的大小和語音的復(fù)雜性；2. 語音信號(hào)的質(zhì)量；3. 單個(gè)說話人還是多說話人；4. 硬件。

　　TTS，英文全稱是TextToSpeech，即文語轉(zhuǎn)換，又稱為計(jì)算機(jī)語音合成，它的過程和ASR剛好相反，是把計(jì)算機(jī)中任意出現(xiàn)的文字轉(zhuǎn)換成自然流暢的語音輸出。一般認(rèn)為，語音合成系統(tǒng)包括三個(gè)主要的組成部分：文本分析模塊、韻律生成模塊和聲學(xué)模塊。目前，TTS的技術(shù)已經(jīng)可以達(dá)到商業(yè)化的地步。

SAPI簡(jiǎn)介

　　目前，市場(chǎng)上有很多比較成熟的語音ASR和TTS產(chǎn)品，而且他們大多數(shù)都支持二次開發(fā)，如微軟的Speech Application SDK（SASDK）、IBM的Dutty++等。他們能識(shí)別（生成）英語、日語和中文等不同國家的語言，Dutty++甚至能夠識(shí)別某些地區(qū)的方言，如廣東的方言－粵語。下面我們以SAPI作為例子，簡(jiǎn)單的介紹一下ASR和TTS的開發(fā)引擎。

　　微軟的SAPI是作為Windows的一部分，已經(jīng)被被集成在Windows里面。相對(duì)于其他引擎，他的識(shí)別率也比較高，如果做過適應(yīng)性調(diào)整，識(shí)別率可以達(dá)到90％以上，而且他的開發(fā)包是還可以免費(fèi)獲取的，各種文檔資源也很齊全，很方便做二次開發(fā)。由于SAPI是作為Windows的一個(gè)獨(dú)立組件在發(fā)展，版本更新也比較快。

　　最新的SAPI 3.1提供了基于COM的高級(jí)編程接口，應(yīng)用程序通過這些接口與語音引擎打交道。SAPI將ASR和TTS功能集成在同一個(gè)語音引擎中，TTS可以將文本和文件合成為語音，ASR則是將人的聲音信號(hào)轉(zhuǎn)換為可讀的文本或文件。

如何將ASR和TTS功能附加到CTI應(yīng)用中去

　　對(duì)于設(shè)備提供商和業(yè)務(wù)提供商，他們采用語音識(shí)別和文語轉(zhuǎn)換的方式可能不太一樣。某些比較先進(jìn)的交換平臺(tái)，已經(jīng)在交換機(jī)的內(nèi)部實(shí)現(xiàn)了ASR和TTS的功能，并作為標(biāo)準(zhǔn)接口的一部分對(duì)外提供，業(yè)務(wù)開發(fā)商只需要簡(jiǎn)單的調(diào)用他們即可以在業(yè)務(wù)中使用該功能。如杭州邁可行的MPS2000交換系統(tǒng)，他們就集成了ASR和TTS，并將他們作為統(tǒng)一業(yè)務(wù)接口（USI）的一部分對(duì)外提供。而對(duì)那些應(yīng)用開發(fā)商來說，大部分的時(shí)候并沒有這么幸運(yùn)，他們選擇的交換機(jī)可能大多數(shù)都不會(huì)支持ASR和TTS，因此，要想在業(yè)務(wù)中加入這些功能的話，只有自己基于某種引擎進(jìn)行二次開發(fā)。

　　下面，我們針對(duì)兩種不同當(dāng)前情況，站在業(yè)務(wù)開發(fā)商的角度，看如何將ASR和TTS功能附加到我們的應(yīng)用中去。

帶語音接口的PBX

　　目前，市場(chǎng)上真正支持ASR功能的開發(fā)式業(yè)務(wù)接口并不多，主要有微軟的TAPI電話應(yīng)用接口和邁可行的USI（統(tǒng)一業(yè)務(wù)接口）。這兩種接口都不是標(biāo)準(zhǔn)的電話業(yè)務(wù)接口，不過，他們的應(yīng)用卻很廣泛。

　　這里還是以MPS2000系統(tǒng)為例，MPS2000是一套面向下一代網(wǎng)絡(luò)的、集成了多種業(yè)務(wù)能力的交換平臺(tái)。它具有很強(qiáng)的接入和組網(wǎng)能力，支持V5.2、SS7、ISDN PRI等信令，以及面向IP的H.323、SIP、MeGaCo等媒體控制協(xié)議。同時(shí)，它的業(yè)務(wù)資源也非常豐富，有IVR、會(huì)議、會(huì)議抑制、DTMF、ASR、TTS等資源，能面向各種不同的應(yīng)用。

　　在MPS2000系統(tǒng)中，ASR被抽象為一種簡(jiǎn)單的可替代DTMF進(jìn)行語音撥號(hào)的資源，用戶提起電話，可以不用按鍵，直接呼叫某人或者說出電話號(hào)碼，就可以呼出。TTS則被抽象為一種文本放音的資源，你可以摒棄以往的放音模式（通過路由文件播放），而直接把你想說的文本向用戶放出來

下圖顯示了MPS2000中ASR和TTS的應(yīng)用層次關(guān)系：

不帶語音接口的PBX

　　對(duì)于不帶語音接口的PBX，就需要業(yè)務(wù)開發(fā)商自己去選擇合適的平臺(tái)，包括媒體采集設(shè)備、語音識(shí)別引擎等，并在此基礎(chǔ)上進(jìn)行二次開發(fā)。

下面這副圖描述了這種應(yīng)用的業(yè)務(wù)模型：

　　媒體采集設(shè)備主要用來采集各種語音信號(hào)，如對(duì)普通的電信網(wǎng)，就是PCM a律信號(hào)的采集；而對(duì)VOIP應(yīng)用，采集的信號(hào)可能有很多種，包括G.711/G.723/G.729等各種語音格式。同時(shí)，該設(shè)備還需要具備一定的媒體轉(zhuǎn)換能力，能將各種媒體流轉(zhuǎn)換為ASR能夠識(shí)別的語音格式。

語音識(shí)別技術(shù)的前景展望

　　隨著電信行業(yè)的競(jìng)爭(zhēng)日益加劇，網(wǎng)絡(luò)運(yùn)營商和業(yè)務(wù)開發(fā)商都在尋找不同的業(yè)務(wù)增長點(diǎn)去吸引客戶。ASR和TTS作為一種誘人的新技術(shù)，如果能很好的嵌入到增值業(yè)務(wù)的應(yīng)用中去，必將形成一個(gè)很好的應(yīng)用前景。

杭州邁可行公司供稿 CTI論壇編輯

專業(yè)通信調(diào)度系統(tǒng)服務(wù)中石化華東成品油管網(wǎng)工程 2009-05-19

邁可行建設(shè)江西省政府應(yīng)急指揮系統(tǒng) 2009-04-21

邁可行通信建立新的合作伙伴管理體系 2009-03-17

邁可行承建中石油呼和浩特?zé)捰蛷S混合調(diào)度系統(tǒng) 2009-03-06

分類信息: 語音合成TTS_與_語音識(shí)別ASR 文摘技術(shù)_語音合成_文摘技術(shù)_語音識(shí)別_文摘
长岛县| 斗六市| 米林县| 陇西县| 始兴县| 乐陵市| 天水市| 都兰县| 军事| 连州市| 新巴尔虎右旗| 息烽县| 城固县| 镇原县| 沙田区| 通河县| 蕉岭县| 浮梁县| 平顶山市| 吴旗县| 都兰县| 梧州市| 晋州市| 章丘市| 弥渡县| 青岛市| 孟村| 乌拉特中旗| 定州市| 大渡口区| 柘荣县| 化德县| 皋兰县| 阿鲁科尔沁旗| 和龙市| 南靖县| 麻栗坡县| 饶平县| 辽阳市| 金昌市| 古丈县|