VoiceXML與多通道
- 語(yǔ)音界面的新標準
2003/01/28
世界上最古老的用戶(hù)界面--人類(lèi)語(yǔ)言終于在二十一世紀借助于VoiceXML,一種語(yǔ)音可擴展標記語(yǔ)言發(fā)展成熟起來(lái)。作為世界上第一個(gè)真正的語(yǔ)音通信標準,它定義了應用開(kāi)發(fā)商向用戶(hù)提供新型信息訪(fǎng)問(wèn)服務(wù)的方式。通過(guò)這種服務(wù),用戶(hù)在任何地方,都可以通過(guò)電話(huà)或任何移動(dòng)設備,虛擬訪(fǎng)問(wèn)任何信息。VoiceXML正在被廣泛應用于旅游、金融與信息服務(wù)等行業(yè)的各種業(yè)務(wù)領(lǐng)域中,甚至是政府部門(mén)與市政機構,全球的無(wú)線(xiàn)運營(yíng)商等。
VoiceXML最初由VoiceXML論壇創(chuàng )建,現在VoiceXML由萬(wàn)維網(wǎng)聯(lián)盟(W3C)主持。后者是一個(gè)全球性組織,它已經(jīng)制定了一系列網(wǎng)絡(luò )技術(shù)標準。其宗旨在于為用戶(hù)定義一種新方法,運用基于Web的服務(wù)通過(guò)口頭指令和DTMF鍵盤(pán)實(shí)現交流,通過(guò)事先記錄的話(huà)音、合成話(huà)音或音樂(lè )流獲取信息。為了迎接這種挑戰,W3C定義了一套在設計上與網(wǎng)頁(yè)編寫(xiě)標準相類(lèi)似的標記語(yǔ)言,以規范應用程序的語(yǔ)音問(wèn)題,例如用戶(hù)對話(huà)流、自動(dòng)語(yǔ)音識別與相關(guān)語(yǔ)法、語(yǔ)音合成與呼叫控制等。
應用中的VoiceXML
在今天的通話(huà)應用市場(chǎng)上,應用VoiceXML的基本目標在于全力擴大現有網(wǎng)站及其內容的容量,使它們適應交互式語(yǔ)音響應應用,同時(shí)減小復雜應用方案的編程復雜性。此外,在客戶(hù)服務(wù)器信息處理環(huán)境中,它允許語(yǔ)音與數據服務(wù)的輕松結合。
VoiceXML是專(zhuān)門(mén)設計用于抽取應用開(kāi)發(fā)商在底層特定平臺上的編程內容。在本質(zhì)上,由于開(kāi)發(fā)商不再需要在通話(huà)平臺上編寫(xiě)微小細節的地址代碼,從而簡(jiǎn)化了語(yǔ)音應用的創(chuàng )建。它實(shí)現了應用程序內容的標準化,例如話(huà)音識別語(yǔ)法與呼叫控制等。因此,應用VoiceXML編譯程序的系統,雖然具有自己的特定規格,但是無(wú)需考慮已經(jīng)抽取的特定系統的要求,就可以容易地移植到其他系統中。作為一種通用語(yǔ)言,VoiceXML不但適合應用開(kāi)發(fā)商,而且也適合提供新聞、天氣預報及航空服務(wù)信息的服務(wù)提供商。
VoiceXML設計的工作原理:語(yǔ)音應用程序作為系列頁(yè)存儲在類(lèi)似于網(wǎng)絡(luò )服務(wù)器的文件服務(wù)器上。從實(shí)現平臺接收到輸入呼叫時(shí),VoiceXML編譯程序會(huì )向文件服務(wù)器發(fā)出一個(gè)特定URL請求,就像用戶(hù)瀏覽網(wǎng)絡(luò )時(shí)輸入網(wǎng)站地址一樣。文件服務(wù)器可以與編譯程序直接相連,也可以設置在外部,通過(guò)本地網(wǎng)或互聯(lián)網(wǎng)的IP協(xié)議訪(fǎng)問(wèn)。他們可以保持應用程序的服務(wù)邏輯,可以提供數據庫查找與其他系統操作功能。
然后,這些頁(yè)可以向編譯程序提供系統需要的對話(huà)流和各種操作,例如要求呼叫用戶(hù)提供特定語(yǔ)音輸入。用戶(hù)的回應影響對話(huà)編譯,會(huì )使上述請求返回文件服務(wù)器。而后,下一VoiceXML頁(yè)會(huì )完成答復,從而用戶(hù)對話(huà)得以持續。
VoiceXML應用于簡(jiǎn)單應用比較理想,例如自動(dòng)值班應用程序。在此程序中,呼叫用戶(hù)與系統間的對話(huà)不很復雜,用戶(hù)交互簡(jiǎn)單。同時(shí),VoiceXML也可應用于較為復雜的應用中。在這些應用中,向用戶(hù)提供多種選擇,數據檢索范圍較大。基于VoiceXML的應用接口向用戶(hù)提示事先錄制的和合成的對話(huà),可以理解簡(jiǎn)單的單詞和詞組。隨著(zhù)這種技術(shù)的不斷改進(jìn),它可以支持更豐富的人機自然語(yǔ)言對話(huà)。
結構與HTML相同
就結構而言,VoiceXML應用與目前應用廣泛的HTML應用相同。唯一的差別在于前者使用語(yǔ)音瀏覽器,而后者使用Netscape或Internet
Explorer作為瀏覽器。語(yǔ)音瀏覽器可以生成HTTP請求,形成結果標記。在這種情況下,VoiceXML圖2說(shuō)明了語(yǔ)音系統的基本結構。
更多新規范
由于具有一系列新規范,Voice XML性能非常強大。作為W3C語(yǔ)音瀏覽器工作組的開(kāi)發(fā)內容,每種規范都具有自己獨特的作用。盡管本文不可能詳細說(shuō)明所有的這些規范,但其中的兩個(gè)是值得介紹的。
話(huà)音合成標記語(yǔ)言(SSML)規范,界定了一種通過(guò)話(huà)音合成器生成合成話(huà)音的標準方法。在語(yǔ)音應用方案中,合成話(huà)音又稱(chēng)之為正文-語(yǔ)音合成。基于Sun
Microsystems的JSGF或JSML規范,SSML規范設計用于向應用開(kāi)發(fā)商提供一種控制合成話(huà)音輸出,如單詞發(fā)音、大小、音調、語(yǔ)速與節奏等的標準方法。
SSML提供一些關(guān)鍵設計元素,幫助實(shí)現跨平臺和跨不同文語(yǔ)轉換引擎之間語(yǔ)音輸出的一致性。
呼叫控制可擴展標記語(yǔ)言(CCXML),設計用于支持VoiceXML應用中的復雜的通話(huà)呼叫控制,處理與呼叫相關(guān)的操作,諸如呼叫轉移、會(huì )議、選擇呼叫應答與長(cháng)線(xiàn)連接(系統把呼叫用戶(hù)與出站線(xiàn)路連接,當出站呼叫結束時(shí),再應答此用戶(hù))等。此外,CCXML還提供一種電話(huà)網(wǎng)絡(luò )信號傳輸故障訪(fǎng)問(wèn)功能。這是一種運營(yíng)商非常需要的性能。上述兩種語(yǔ)言既相互獨立,又相互補充,并且可以單獨實(shí)現。
多通道
目前,存在一種話(huà)音交互與其他交互模式相融合的趨勢。多通道順應了應用開(kāi)發(fā)商的需求。在多通道應用中,使用話(huà)音作為輸入輸出,同時(shí)還提供數據接口訪(fǎng)問(wèn),例如應用HTML的網(wǎng)絡(luò )接口、短信息服務(wù)(SMS)與無(wú)線(xiàn)應用協(xié)議(WAP)等。換一種說(shuō)法,多通道應用不僅僅限于簡(jiǎn)單的輸入輸出,還能夠容納多種模式,用戶(hù)不僅可以實(shí)現說(shuō)、寫(xiě)、打字,而且可以通過(guò)更為自然的用戶(hù)界面實(shí)現聽(tīng)和看。
W3C已經(jīng)認識到,把各種不同的設備融合成一種綜合應用的需求,并且成立了一個(gè)小組進(jìn)行研究。他們把多通道視為一種擴展網(wǎng)絡(luò )用戶(hù)接口、應用多種交互模式的方法,讓用戶(hù)自由選擇語(yǔ)音和輸入設備,例如輔助鍵盤(pán)、鍵盤(pán)、鼠標和輸入筆等。對于輸出,用戶(hù)能夠聽(tīng)到語(yǔ)音提示和音頻,而且能夠查看圖形顯示器上的信息。 一般來(lái)說(shuō),真正的多通道應用將不僅允許在訪(fǎng)問(wèn)服務(wù)器信息時(shí),不同模態(tài)共存于一個(gè)設備上,例如移動(dòng)電話(huà),而且可以存在于多個(gè)一起使用的設備上。例如,用戶(hù)可以一邊駕車(chē),一邊詢(xún)問(wèn)行駛方向。系統響應生成,并通過(guò)圖形和文本顯示器傳送到司機的個(gè)人信息終端(PDA)或全球定位系統設備上。
W3C已經(jīng)認識到,把各種不同的設備融合成一種綜合應用的需求,并且成立了一個(gè)小組進(jìn)行研究。此機構正在制定一種各種容量下的多通道、多設備同步化規范。 除了W3C正在進(jìn)行的工作外,其他組織機構也認識到多通道應用的重要性,也提出許多不同的實(shí)現多通道的方法。IBM提出一種名為XHTML + 語(yǔ)音的設計方案,將 VoiceXML、XML和HTML相結合。此外,Microsoft、Cisco與Phiplips 語(yǔ)音處理以及其他一些公司共同建立一個(gè)研究機構,已經(jīng)開(kāi)發(fā)出一種名為語(yǔ)音應用語(yǔ)言標記(SALT)的多通道設計方案。
目前的多通道應用
近年來(lái),隨著(zhù)社會(huì )發(fā)展步伐的加快,用戶(hù)越來(lái)越期望隨時(shí)隨地獲得信息。盡管傳統的計算機是獲取信息的一種最佳方式,但是用戶(hù)更時(shí)常需要通過(guò)一種小的移動(dòng)裝置,如手機、無(wú)線(xiàn)PDA或智能全球定位系統來(lái)獲得這些信息。同時(shí),盡管語(yǔ)音應用正在逐漸成為了一種訪(fǎng)問(wèn)網(wǎng)絡(luò )或公司數據的有效方法,但是在很多情況下,這種應用適用范圍與效率都相當低。但是,應用本文所論述的性能增強方法,用戶(hù)可以得到更好的服務(wù)。
一些目前成功應用VoiceXML的多通道應用包括:
· 蜂窩廣播 - 使用SMS 通知服務(wù)用戶(hù),某一事件發(fā)生,允許用戶(hù)即時(shí)操作按鈕接受服務(wù)。
· 遠程信息處理 - 在車(chē)輛上通過(guò)語(yǔ)音詢(xún)問(wèn)信息,并在個(gè)人數據終端查看結果。
· 語(yǔ)音電子郵件 - 使用語(yǔ)音指令發(fā)送接收電子郵件。
· 即時(shí)會(huì )議 - 在接通現有呼叫同時(shí),使用語(yǔ)音指令撥打第三方號碼,然后三方同時(shí)通話(huà)。
事實(shí)上任何應用方式都是可能的!
VoiceXML與多通道應用,目前應用正在逐步擴大 - 電信運營(yíng)商DoCoMo與SprintPCS等將其應用于增值服務(wù),以增加自己的收入,旅游巨頭美聯(lián)航等將它用于旅游信息服務(wù),通用電氣等企業(yè)將它用于允許公司用戶(hù)訪(fǎng)問(wèn)公司的數據庫等。
本文中簡(jiǎn)要說(shuō)明的VoiceXML標準以及輔助技術(shù),正在逐步激勵應用開(kāi)發(fā)商創(chuàng )建新型服務(wù),鼓舞用戶(hù)接受新型服務(wù)的信心。
可以在下列網(wǎng)站上查看關(guān)于VoiceXML的信息:
NMS國際通訊有限公司供稿 CTI論壇編輯
Sun X4250 和X4450主板上的NMS板卡及NA 8.0 的使用 2008-10-31 |
NMS公司SS7 5.0 軟件現在正式發(fā)布 2008-10-29 |
NMS TX 5000e系列擴充了基于PCI Express的SS7產(chǎn)品線(xiàn) 2008-10-27 |
南非市場(chǎng)開(kāi)始推廣移動(dòng)視頻應用 2008-09-25 |
TouchStar呼叫中心支持NMS Open Access媒體處理平臺 2008-09-23 |