首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>> 北京無(wú)限商機

無(wú)限商機VoiceXML語(yǔ)音瀏覽器技術(shù)說(shuō)明書(shū)

梁燁 2001/11/12

一 基于XML的數據瀏覽技術(shù)

Internet 的生命是瀏覽,基于HTML腳本描述語(yǔ)言的Web 的瀏覽機制的應用是Internet 廣泛普及的基礎。

而一種新的腳本描述語(yǔ)言:XML 的出現,為數據瀏覽技術(shù)帶來(lái)了一種全新的概念。XML 標記語(yǔ)言,將以往的HTML 之類(lèi)的標記語(yǔ)言所關(guān)注于數據表達形式的概念轉移到對數據含義和內容的關(guān)注上來(lái)。HTML 標記語(yǔ)言中,計算機程序可以知道這些數據應該以什么樣的方式在屏幕上表現出來(lái),但我們卻很難讓計算機程序知道,這些數據是什么含義。而在XML 中,其標記的是數據的含義和內容,我們可以輕松的讓程序來(lái)識別和處理這些數據,并以各種各樣適當的形式表現出來(lái)。

基于XML 的數據瀏覽技術(shù)可以說(shuō)是網(wǎng)絡(luò )時(shí)代的又一次數據革命,正如美國微軟公司首席執行官史蒂夫.鮑爾默所說(shuō):“XML語(yǔ)言將革新人機界面”。

鮑爾默稱(chēng),XML語(yǔ)言是一種“更坦白的網(wǎng)絡(luò )語(yǔ)言”,它使得數據在網(wǎng)絡(luò )上的獲取和交流更加靈活便利,并可以通過(guò)包括電腦、電視和移動(dòng)電話(huà)等更多的終端設備得到反映。鮑爾默說(shuō),“5年內我希望能像和秘書(shū)講話(huà)一樣地和電腦交流。”

二 VoiceXML :語(yǔ)音瀏覽

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國際巨型公司于2000年提出的一種應用于語(yǔ)音瀏覽的標記語(yǔ)言,它建立于XML 標記語(yǔ)言規范的基礎之上,是語(yǔ)音瀏覽技術(shù)的核心。而因為其同樣是一種XML描述語(yǔ)言,其與數據庫、HTML、WML以及其它文檔處理和發(fā)布系統的資料交換幾乎沒(méi)有障礙。

通過(guò)VoiceXML ,可以像建立HTML 的Web 應用一樣輕松的建立語(yǔ)音應用系統,而這樣的語(yǔ)音應用系統可以為基于VoiceXML 的語(yǔ)音瀏覽器所廣泛支持。語(yǔ)音瀏覽器通過(guò)解析VoiceXML ,與語(yǔ)音識別和語(yǔ)音合成等方式進(jìn)行人機交互,從而實(shí)現說(shuō)話(huà)就可以上網(wǎng)的夢(mèng)想。而語(yǔ)音瀏覽器不僅僅可以建立于電話(huà)服務(wù)器端,其同樣可以建立于PC 平臺、電視、PDA 等等其他終端上。

通過(guò)VoiceXML ,可以很容易地建立新的語(yǔ)音應用和服務(wù),如語(yǔ)音門(mén)戶(hù)、語(yǔ)音Call Center ,語(yǔ)音信息服務(wù)、語(yǔ)音電子商務(wù)等等。而這些應用或服務(wù)可以很容易地和原有的數據系統結合起來(lái),甚至可以輕易地從原有的各類(lèi)應用中延展出來(lái)。而VoiceXML 的語(yǔ)音應用,可以以XML的數據表達形式,與其它的應用系統、數據系統輕易交流。

三 北京無(wú)限商機公司的VoiceXML 語(yǔ)音瀏覽器

我們的VoiceXML語(yǔ)音瀏覽器,為解決眾多需求而設計。其設計層次如下:

在我們的實(shí)現中,我們分別設計了控制層、安全層、事務(wù)層、會(huì )話(huà)層、和應用層。并開(kāi)放了除控制層之外的所有層的開(kāi)放接口。

1.VoiceXML 語(yǔ)音瀏覽器的組成部分

一個(gè)完整的VoiceXML 語(yǔ)音瀏覽器,由以下幾個(gè)部分組成:

(1).VoiceXML 解析器

VoiceXML 解析器是整個(gè)語(yǔ)音瀏覽器的核心部分。其在語(yǔ)音瀏覽器中擔負控制中心和司令者的腳色。VoiceXML 解析器通過(guò)網(wǎng)絡(luò )協(xié)議,如Http 等協(xié)議,獲取VoiceXML 腳本語(yǔ)言所描述的應用文檔(document),解析該應用文檔,解釋其中各個(gè)標志(Tag ),產(chǎn)生相應的控制命令,控制其它部件進(jìn)行相應的動(dòng)作,并獲取結果,根據結果決定應用的執行方向和順序流。

(2).語(yǔ)音識別引擎

語(yǔ)音識別引擎是VoiceXML語(yǔ)音瀏覽器的生命力所在,語(yǔ)音識別使計算機能理解用戶(hù)的語(yǔ)音命令,產(chǎn)生相應的文字結果,送回VoiceXML解析器做處理。

在VoiceXML 語(yǔ)音瀏覽器中,語(yǔ)音識別引擎為命令式的識別引擎,其根據有限的語(yǔ)法(grammar)來(lái)識別用戶(hù)的語(yǔ)音信號,產(chǎn)生對應語(yǔ)法定義的識別結果。所以,語(yǔ)法便成為了VoiceXML語(yǔ)音瀏覽器中的重要概念。在VoiceXML語(yǔ)音瀏覽器中,語(yǔ)法決定了用戶(hù)能說(shuō)什么,如何說(shuō),好的語(yǔ)法能帶給用戶(hù)良好的交互感覺(jué),也能從邏輯上提高語(yǔ)音識別引擎的識別率,使整個(gè)語(yǔ)音應用的瀏覽流暢而輕松。

VoiceXML 語(yǔ)音瀏覽器中,語(yǔ)音識別引擎不僅需要處理對用戶(hù)語(yǔ)音信號的識別,同時(shí)也需要處理對用戶(hù)按鍵的識別,按鍵和語(yǔ)音以同樣的機制被處理和傳遞。

(3).語(yǔ)音合成引擎

語(yǔ)音合成引擎,其處理VoiceXML 解析器將文字轉換為語(yǔ)音信號,并通過(guò)語(yǔ)音通道播放給用戶(hù)的命令。VoiceXML 語(yǔ)音合成引擎可以將文字轉換成語(yǔ)音文件,也可以轉換成語(yǔ)音數據流,或者直接將已事先錄制好的語(yǔ)音文件直接播放或以流的方式播放給語(yǔ)音通道。

語(yǔ)音合成引擎的文字轉化為聲音的品質(zhì),決定了用戶(hù)對系統的直接感覺(jué),流暢自然的合成聲音,將使用戶(hù)感覺(jué)良好。如何提高語(yǔ)音合成引擎的合成品質(zhì),已成為影響語(yǔ)音應用效果的重要因素。

(4).語(yǔ)音通道

語(yǔ)音通道是在VoiceXML語(yǔ)音瀏覽器中傳輸用戶(hù)的語(yǔ)音(speech)數據信號和合成引擎所產(chǎn)生的聲音數據信號的傳遞通道,其連接物理上的語(yǔ)音采集和播放設備,語(yǔ)音識別引擎的語(yǔ)音輸入端、語(yǔ)音合成引擎的語(yǔ)音輸出端。

在基于電信平臺的語(yǔ)音應用系統中,語(yǔ)音通道的物理設備主要是語(yǔ)音卡、語(yǔ)音信道或者是以數字編碼形式所存在的虛擬通道,如IP 的語(yǔ)音編碼數據包等。而在PC 平臺上,聲卡則成為主要的語(yǔ)音通道。

對不同的平臺的語(yǔ)音通道物理設備的支持,決定了VoiceXML語(yǔ)音瀏覽器可實(shí)際應用的平臺。

2.VoiceXML語(yǔ)音瀏覽器各部分的協(xié)作

VoiceXML語(yǔ)音瀏覽器的協(xié)作核心是VoiceXML解析器,其通過(guò)建立應用(Application)和會(huì )話(huà)(Session),獲取包含控制命令的文檔(Document),根據文檔中的標志(Tag)建立對話(huà)(Dialog),從而解釋各個(gè)對話(huà),控制語(yǔ)音識別、語(yǔ)音合成引擎以及語(yǔ)音通道的觸發(fā)、開(kāi)啟和關(guān)閉、掛起等,實(shí)現與用戶(hù)的會(huì )話(huà)式的交互,并根據對用戶(hù)反應的識別結果進(jìn)行導向判斷,進(jìn)行文檔之間的轉移和應用之間的轉移。

3.我們的VoiceXML 語(yǔ)音瀏覽器的開(kāi)放機制

在我們的VoiceXML語(yǔ)音瀏覽器中,我們采用了IBM公司為電信應用而設計的語(yǔ)音識別引擎,L&H公司和中國科技大學(xué)訊飛公司的語(yǔ)音合成引擎,以及建立于NMS公司的AG系列語(yǔ)音板卡之上的電信級語(yǔ)音通道。

在我們的VoiceXML語(yǔ)音瀏覽器中,我們對識別引擎和合成引擎進(jìn)行了開(kāi)放性的接口設計,實(shí)現了與引擎無(wú)關(guān)的設計。根據我們的接口,其它開(kāi)發(fā)商可以開(kāi)發(fā)為其它識別或合成引擎的封裝模塊,從而在我們的VoiceXML語(yǔ)音瀏覽器中使用其它的識別或合成引擎。

而我們?yōu)閂oiceXML語(yǔ)音瀏覽器設計了與語(yǔ)音通道無(wú)關(guān)的接口設計,其它開(kāi)發(fā)商可以根據接口封裝語(yǔ)音通道的模塊,實(shí)現基于其它語(yǔ)音板卡、IP甚至PC機、PDA 等的語(yǔ)音通道,使VoiceXML語(yǔ)音瀏覽器可以建立于其它的物理平臺之上。

我們的VoiceXML語(yǔ)音瀏覽器中,所有開(kāi)發(fā)接口以CORBA 規范設計,其它開(kāi)發(fā)商可以用各種編程語(yǔ)言如C、C++、Java 等在不同的平臺和操作系統上實(shí)現,從而實(shí)現了對各種操作系統平臺的支持。并且,利用CORBA 的強大的分布式機制,整個(gè)VoiceXML語(yǔ)音瀏覽器可以建立于跨越各種物理平臺、操作系統之上的分布式網(wǎng)絡(luò )中。

4.如何在VoiceXML 語(yǔ)音瀏覽器上開(kāi)發(fā)語(yǔ)音應用?

在voiceXML 語(yǔ)音瀏覽器上開(kāi)發(fā)語(yǔ)音應用,如同開(kāi)發(fā)Web應用一樣輕松簡(jiǎn)單。只需要有對XML的知識,就可以開(kāi)發(fā)VoiceXML 應用。基于VoiceXML 的語(yǔ)音應用系統可以很好的和其它已有的Web 應用系統或數據應用系統良好的結合。

開(kāi)發(fā)VoiceXML 語(yǔ)音應用:

在VoiceXML語(yǔ)音瀏覽器基礎的應用開(kāi)發(fā),改變了傳統的CTI系統的開(kāi)發(fā)概念,在這里,開(kāi)發(fā)人員無(wú)須關(guān)心復雜的流程和模塊,無(wú)須為數據接口編寫(xiě)程序模塊,無(wú)須重新建立已有系統的邏輯實(shí)現,也無(wú)須一次次重復某個(gè)模塊的開(kāi)發(fā)。建立VoiceXML語(yǔ)音應用系統,就和建立Web 應用一樣簡(jiǎn)單

四 基于VoiceXML 機制的語(yǔ)音應用

1.基于VoiceXML 機制的語(yǔ)音應用的特點(diǎn)

基于voiceXML機制的語(yǔ)音應用有以下幾個(gè)特點(diǎn):

2.自由自在的流程

VoiceXML語(yǔ)音應用系統中強調對話(huà)和導向,而不在有固定的流程結構限制。如同用IE 瀏覽網(wǎng)頁(yè)一樣,我們無(wú)法定義清晰的用戶(hù)可能點(diǎn)擊和瀏覽的順序,而是以網(wǎng)頁(yè)為單位,以鏈接為導向。VoiceXML 亦是以同樣的機制來(lái)完成整個(gè)應用的瀏覽。

在VoiceXML 語(yǔ)音應用中,用戶(hù)可以選擇所有激活的鏈接處,象瀏覽Web 網(wǎng)頁(yè)一樣任意跳轉到其它頁(yè)中去。根據用戶(hù)的語(yǔ)音命令和對事件的捕獲,可以跳轉到其他應用、其它文檔、甚至其它對話(huà)中去。

而利用Java Script 、ASP、Perl等描述語(yǔ)言,VoiceXML應用可以動(dòng)態(tài)的根據用戶(hù)的選擇、預制模板和其它數據環(huán)境動(dòng)態(tài)地產(chǎn)生新的應用或文檔以及語(yǔ)法定義,實(shí)現流程的動(dòng)態(tài)生成,使VoiceXML 語(yǔ)音應用不再受預先制定好的流程規范的限制。

3.無(wú)所限制的內容

XML 的機制決定了VoiceXML 腳本語(yǔ)言不僅可以描述數據的式樣,其同樣描述數據的內容和含義。而只要有共同規范的DTD 定義,VoiceXML 腳本可以輕松的與其它XML腳本交換數據,理解其它XML腳本應用中的數據含義。這就是說(shuō),其它的基于XML腳本的Web 應用、數據庫系統、數據文檔都可以輕松的和VoiceXML腳本結合起來(lái)。VoiceXML 應用可以輕松的解釋它們的數據內容,并通過(guò)適當的表現式樣體現出來(lái)。

利用Java Script 、ASP 、Perl 等描述語(yǔ)言所建立的程序,可以訪(fǎng)問(wèn)其它各種各樣的數據來(lái)源,不僅可以產(chǎn)生動(dòng)態(tài)的瀏覽流程,同樣可以產(chǎn)生動(dòng)態(tài)的內容。正如在Web 應用中ASP 所產(chǎn)生的動(dòng)態(tài)網(wǎng)頁(yè)一樣,我們產(chǎn)生的動(dòng)態(tài)VoiceXML語(yǔ)音網(wǎng)頁(yè)具有同樣的瀏覽自由度和內容自由度。

正如基于VoiceXML 的語(yǔ)音郵件應用所表現的那樣,通過(guò)主頁(yè)的導向,根據不同用戶(hù)的用戶(hù)ID ,利用Java Script 或ASP等進(jìn)行對郵件服務(wù)器的訪(fǎng)問(wèn),根據郵件數據、郵件格式和郵件內容會(huì )產(chǎn)生不同的VoiceXML 郵件網(wǎng)頁(yè)。不同的用戶(hù)所訪(fǎng)問(wèn)到的郵件網(wǎng)頁(yè)的結構和內容都是不同的。

4.個(gè)性定制的體現

不同于傳統CTI系統對每個(gè)用戶(hù)的服務(wù)都一模一樣的方式,VoiceXML應用可以根據用戶(hù)自己的喜好定制自己需要的內容。根據已有用戶(hù)的信息數據,如用戶(hù)的特征,用戶(hù)選擇的項目等,利用模板機制,可以生成完全個(gè)性化的應用流程和內容。

在VoiceXML 語(yǔ)音應用系統中,用戶(hù)不僅可以定制他們各自喜好的服務(wù)項目,甚至可以定制他們期望的內容、格式和風(fēng)格,完全體現自己的個(gè)性化。

在基于VoiceXML 的語(yǔ)音門(mén)戶(hù)應用中,用戶(hù)也可以自己開(kāi)發(fā)編寫(xiě)自己的語(yǔ)音網(wǎng)頁(yè),自由體現自我,建立自己的個(gè)人語(yǔ)音網(wǎng)站,展示自我個(gè)性。

五 應用示例

1.VoiceXML 語(yǔ)音郵件

VoiceXML 語(yǔ)音郵件應用,使用戶(hù)可以通過(guò)電話(huà)等聲音設備收發(fā)電子郵件。在基于VoiceXML的語(yǔ)音郵件應用中,用戶(hù)可以自由的選擇性收聽(tīng)郵件、只聽(tīng)標題或內容、順序瀏覽、隨時(shí)刪除。利用通訊本功能,用戶(hù)通過(guò)說(shuō)出姓名即可發(fā)送語(yǔ)音形式的郵件,讓對方聽(tīng)到自己的聲音信息。

2.VoiceXML股票查詢(xún)

基于VoiceXML 的股票查詢(xún)應用系統,用戶(hù)無(wú)須記住股票代碼,只需說(shuō)出股票名稱(chēng)即可。用戶(hù)可以選擇性定制自己所關(guān)心的幾支股票,只查詢(xún)這幾支股票的信息。通過(guò)更為復雜的模板定制,用戶(hù)還可以定制他們關(guān)心的股票價(jià)格、成交量等細節內容,以喜好的風(fēng)格來(lái)聽(tīng)取,用戶(hù)也可以定制提醒、報警等功能,及時(shí)處理。

3.VoiceXML 天氣查詢(xún)

基于VoiceXML 的天氣查詢(xún)系統,選擇用戶(hù)所關(guān)心的幾個(gè)城市,隨時(shí)查詢(xún)天氣情況,以便安排出行、旅游。

4.VoiceXML 語(yǔ)音游戲

試試和電腦玩玩猜拳游戲吧,聽(tīng)聽(tīng)電腦贏(yíng)時(shí)的得意和輸時(shí)的抱怨,看看你能不能幾句話(huà)說(shuō)得電腦低頭服輸?

北京無(wú)限商機供稿 CTI論壇編輯



相關(guān)鏈接:
融合通訊還有多遠? 2003-04-15
我國語(yǔ)音互聯(lián)網(wǎng)產(chǎn)業(yè)的發(fā)展和統一標準規范VAP探討 2002-03-04
北京無(wú)限商機 2002-03-04
北郵UBO共建實(shí)驗室致力語(yǔ)音數據兩網(wǎng)融合 2002-01-23
企業(yè)服務(wù)新形象——UBO Tel-win智能總機 2001-12-20
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 沾化县| 龙门县| 武陟县| 遂昌县| 南江县| 时尚| 元阳县| 陆川县| 虞城县| 隆化县| 黔西县| 安乡县| 林西县| 金平| 洪泽县| 巴塘县| 寿阳县| 黄陵县| 汪清县| 梁平县| 岐山县| 大化| 麻阳| 精河县| 桐庐县| 航空| 牙克石市| 蛟河市| 兴业县| 大厂| 交口县| 太湖县| 七台河市| 界首市| 九台市| 同江市| 垦利县| 蕲春县| 钟山县| 江阴市| 南开区| http://444 http://444 http://444 http://444 http://444 http://444