首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

 

基于VoiceXML 的應(yīng)用系統(tǒng)規(guī)范提綱
(征求意見(jiàn)稿)

中國(guó)移動(dòng)互聯(lián)應(yīng)用協(xié)議特別組---中文&漢語(yǔ)專(zhuān)家組 2001年7月

一 互聯(lián)網(wǎng)絡(luò)與語(yǔ)音應(yīng)用技術(shù)

以互聯(lián)網(wǎng)為代表的信息產(chǎn)業(yè)為中國(guó)帶來(lái)了巨大的機(jī)會(huì)和挑戰(zhàn),中國(guó)社會(huì)開(kāi)始進(jìn)入一個(gè)以信息為核心的時(shí)代。如何快速準(zhǔn)確地獲取所關(guān)心的信息,對(duì)人們的日常工作和生活已經(jīng)具有越來(lái)越重要的影響。

至今為止,Internet 的訪問(wèn)模式逐漸從單一的PC/HTML訪問(wèn)方式向多種用戶(hù)終端發(fā)展 ,如:移動(dòng)電話(huà)、PDA、機(jī)頂盒等。而我們知道,人類(lèi)習(xí)慣于輕松簡(jiǎn)單的說(shuō)話(huà),以語(yǔ)音的方式,通過(guò)友好的、人性的交互直接獲取信息和服務(wù),而并不愿依靠鍵盤(pán)和鼠標(biāo)。近年來(lái)語(yǔ)音技術(shù)的飛速發(fā)展和不斷成熟,以及中文語(yǔ)音應(yīng)用技術(shù)的突破,為信息網(wǎng)絡(luò)帶來(lái)了一種極具誘惑的信息終端-----電話(huà)。

語(yǔ)音,是人類(lèi)最為熟悉的交流方式。人有70%的信息獲取是通過(guò)聽(tīng),而90%的信息表達(dá)是通過(guò)說(shuō)。語(yǔ)音是人們?cè)儐?wèn)問(wèn)題,交換觀念、分享經(jīng)驗(yàn)和建立關(guān)系的最主要方式,人類(lèi)通過(guò)語(yǔ)音傳達(dá)著大量的信息。

語(yǔ)音應(yīng)用技術(shù)(Voice Application Technology ),是指人們可以使用有線(xiàn)電話(huà)或移動(dòng)電話(huà),以及PC、PDA和其它智能設(shè)備通過(guò)語(yǔ)音識(shí)別、語(yǔ)音合成的交互技術(shù),語(yǔ)音瀏覽、智能信息處理等技術(shù)實(shí)現(xiàn)人們?cè)L問(wèn)互聯(lián)網(wǎng)絡(luò),以及實(shí)現(xiàn)個(gè)人服務(wù)和商業(yè)服務(wù)的應(yīng)用技術(shù)。

語(yǔ)音應(yīng)用技術(shù),是語(yǔ)音技術(shù)(ASR和TTS )、語(yǔ)音瀏覽技術(shù)、智能文字信息處理技術(shù)等技術(shù)的集合,其形成一個(gè)完整的技術(shù)應(yīng)用規(guī)范體系,建立于已有的相關(guān)技術(shù)協(xié)議標(biāo)準(zhǔn)上,著重于應(yīng)用開(kāi)發(fā)。

語(yǔ)音應(yīng)用技術(shù)是跨接在以語(yǔ)音為核心的電話(huà)網(wǎng)絡(luò)和以數(shù)據(jù)為核心的互聯(lián)網(wǎng)絡(luò)兩者之間的一座橋梁,有線(xiàn)電話(huà)和移動(dòng)電話(huà)成為了互聯(lián)網(wǎng)絡(luò)的信息終端,為人們以自然語(yǔ)言交互的方式來(lái)遨游信息世界打開(kāi)了一扇自由的大門(mén)。語(yǔ)音應(yīng)用技術(shù)覆蓋語(yǔ)音識(shí)別、語(yǔ)音合成、語(yǔ)音瀏覽、語(yǔ)音集成、語(yǔ)音交互、Web服務(wù)等技術(shù)領(lǐng)域,可以輕松介入現(xiàn)有的網(wǎng)絡(luò)信息系統(tǒng),集成現(xiàn)有的各類(lèi)信息處理技術(shù),如Web 、WAP、GPRS等等。

語(yǔ)音應(yīng)用技術(shù),使人們可以自由的以對(duì)話(huà)(Dialog)的方式與機(jī)器和遠(yuǎn)端語(yǔ)音服務(wù)器交談,以語(yǔ)音(Speech)的方式命令機(jī)器為自己服務(wù)。這是人類(lèi)長(zhǎng)久以來(lái)的夢(mèng)想,而這個(gè)夢(mèng)想正是通過(guò)語(yǔ)音瀏覽技術(shù)而得以實(shí)現(xiàn)。

語(yǔ)音瀏覽技術(shù),類(lèi)似于Web瀏覽技術(shù),它以一種XML標(biāo)記語(yǔ)言為數(shù)據(jù)載體,通過(guò)各種網(wǎng)絡(luò)數(shù)據(jù)傳輸協(xié)議,而以Client/Server 的方式為語(yǔ)音瀏覽器所解析,通過(guò)語(yǔ)音的方式呈現(xiàn)給用戶(hù)。這類(lèi)似于Web 與 IE瀏覽器的概念,只不過(guò)IE 以圖象的方式在顯示器上將信息呈現(xiàn)出來(lái),而語(yǔ)音瀏覽器以語(yǔ)音的方式在電話(huà)、手機(jī)或其它語(yǔ)音通道中呈現(xiàn)。IE 接受用戶(hù)的鼠標(biāo)和鍵盤(pán)指令,而語(yǔ)音瀏覽器接受用戶(hù)的說(shuō)話(huà)為指令。

二 VoiceXML

VoiceXML ,是由 IBM 、Lucent、Motorola 、AT&T 四家國(guó)際巨型公司于2000年提出的一種應(yīng)用于語(yǔ)音瀏覽的標(biāo)記語(yǔ)言,它建立于XML 標(biāo)記語(yǔ)言規(guī)范的基礎(chǔ)之上,是語(yǔ)音瀏覽技術(shù)的核心,其與數(shù)據(jù)庫(kù)、HTML、WML以及其它文檔處理和發(fā)布系統(tǒng)的資料交換幾乎沒(méi)有障礙。

通過(guò)VoiceXML ,可以很容易的建立新的語(yǔ)音應(yīng)用,如語(yǔ)音門(mén)戶(hù)、語(yǔ)音Call Center ,語(yǔ)音信息服務(wù)、語(yǔ)音電子商務(wù)等等應(yīng)用。而這些應(yīng)用可以很容易的和原有的數(shù)據(jù)系統(tǒng)結(jié)合起來(lái),甚至可以輕易的從原有的各類(lèi)應(yīng)用中發(fā)展出來(lái)。而VoiceXML 的語(yǔ)音應(yīng)用,可以以XML的數(shù)據(jù)表達(dá)形式,與其它的應(yīng)用系統(tǒng)、數(shù)據(jù)系統(tǒng)輕易的交互。

通過(guò)VoiceXML 建立的語(yǔ)音應(yīng)用系統(tǒng),可以為基于VoiceXML 的語(yǔ)音瀏覽器所廣泛支持。語(yǔ)音瀏覽器通過(guò)解析VoiceXML ,與語(yǔ)音識(shí)別和語(yǔ)音合成等方式進(jìn)行人機(jī)交互,從而實(shí)現(xiàn)說(shuō)話(huà)就可以上網(wǎng)的夢(mèng)想。而語(yǔ)音瀏覽器不僅僅可以建立于電話(huà)服務(wù)器端,其同樣可以建立于PC 平臺(tái)、電視、PDA 等等其他終端上。

正是VoiceXML 將語(yǔ)音交互引入了數(shù)據(jù)瀏覽的世界,使電話(huà)等以語(yǔ)音為主要形式的設(shè)備成為新型的網(wǎng)絡(luò)終端,并以自然、對(duì)話(huà)、簡(jiǎn)單的特點(diǎn),使之具備了更為廣泛的普及性和友好性。這種瀏覽機(jī)制為語(yǔ)音應(yīng)用領(lǐng)域展現(xiàn)了一個(gè)廣闊的未來(lái)。

Voicexml是基于XML(eXtensible Markup Language)標(biāo)準(zhǔn)的,其思想采用了現(xiàn)在流行的HTML的模式,Vxml解釋器的設(shè)計(jì)原理也采用了Html瀏覽器的設(shè)計(jì)思路,而且在現(xiàn)在階段,Vxml的服務(wù)器實(shí)際上就是一個(gè)WWW服務(wù)器。
自動(dòng)電話(huà)業(yè)務(wù)是現(xiàn)在電話(huà)業(yè)務(wù)中的增長(zhǎng)迅速的領(lǐng)域,由于Internet的出現(xiàn),使得用戶(hù)有了新的獲取信息的手段,但是由于電話(huà)的易用性,和長(zhǎng)期的客戶(hù)群使得訪問(wèn)自動(dòng)業(yè)務(wù)的更多的是電話(huà)用戶(hù),應(yīng)用提供者會(huì)發(fā)現(xiàn),利用現(xiàn)在Web中的技術(shù)來(lái)生成業(yè)務(wù),將是一種高效、快捷的方式。Vxml做到了將Web和電話(huà)的結(jié)合,而且使得內(nèi)容提供商的開(kāi)發(fā)工作得到有效的保護(hù),它可以應(yīng)用于不同的系統(tǒng),不會(huì)因?yàn)橄到y(tǒng)的擴(kuò)容和系統(tǒng)切換導(dǎo)致業(yè)務(wù)的描述失效,真正做到了業(yè)務(wù)與平臺(tái)無(wú)關(guān)。

VoiceXML系統(tǒng)結(jié)構(gòu)如下圖所示:

其工作過(guò)程如下:

1.由解析器等待電話(huà)用戶(hù)的接入,如果有電話(huà)連接到Vxml文檔服務(wù)中,電話(huà)平臺(tái)將通知解析器,并將相關(guān)信息通知解析器;

2.解析器啟動(dòng)解析器核心,解吸器核心向文檔服務(wù)器獲取Vxml文檔;

3.解析器核心解析文檔語(yǔ)義,根據(jù)語(yǔ)義和用戶(hù)發(fā)生交互,其中包括通過(guò)平臺(tái)向用戶(hù)播放語(yǔ)音文件或者播放文本合成語(yǔ)音,獲得用戶(hù)的按鍵輸入或者語(yǔ)音輸入;

4.文檔結(jié)束,解析器核心結(jié)束工作。

三 應(yīng)用體系結(jié)構(gòu)

基于VoiceXML的語(yǔ)音瀏覽技術(shù),應(yīng)用語(yǔ)音應(yīng)用技術(shù),我們可以建立豐富的語(yǔ)音應(yīng)用。諸如語(yǔ)音門(mén)戶(hù)、語(yǔ)音聲訊查詢(xún)、電話(huà)交易、V-commerce以及統(tǒng)一消息平臺(tái)(UMS) 應(yīng)用等等。

一個(gè)基于VoiceXML語(yǔ)音瀏覽技術(shù)的語(yǔ)音應(yīng)用的體系結(jié)構(gòu)如下圖所示:

在這樣的體系結(jié)構(gòu)中,各種終端通過(guò)PSTN網(wǎng)絡(luò)聯(lián)接到語(yǔ)音網(wǎng)關(guān),而通過(guò)語(yǔ)音網(wǎng)關(guān)來(lái)訪問(wèn)后臺(tái)的數(shù)據(jù)服務(wù)、應(yīng)用服務(wù),或者通過(guò)互聯(lián)網(wǎng)絡(luò)訪問(wèn)各個(gè)語(yǔ)音ICP。

從邏輯層次上,一個(gè)完整的語(yǔ)音應(yīng)用體系包括以下幾個(gè)層次:

其邏輯層次結(jié)構(gòu)中包括以下組成部分:

根據(jù)該體系,建設(shè)語(yǔ)音應(yīng)用系統(tǒng)需要實(shí)現(xiàn)三個(gè)部分:

1.語(yǔ)音網(wǎng)關(guān)
2.語(yǔ)音ICP
3.終端設(shè)備

四 VoiceXML 語(yǔ)音網(wǎng)關(guān)規(guī)范

語(yǔ)音網(wǎng)關(guān)是整個(gè)體系結(jié)構(gòu)中的核心部分,其跨接在PSTN網(wǎng)絡(luò)和互聯(lián)網(wǎng)絡(luò)之間,使電話(huà)用戶(hù)可以通過(guò)之訪問(wèn)建立于互聯(lián)網(wǎng)絡(luò)或其他數(shù)據(jù)網(wǎng)絡(luò)之上的各種語(yǔ)音應(yīng)用和服務(wù)。

通過(guò)分析國(guó)際上各種語(yǔ)音網(wǎng)關(guān)系統(tǒng)極其技術(shù)規(guī)范,特別是參照 W3C組織的"Voice Browser" Activity的框架,我們認(rèn)為作為一個(gè)比較完整的語(yǔ)音網(wǎng)關(guān)標(biāo)準(zhǔn)體系,應(yīng)該包含以下具體標(biāo)準(zhǔn)規(guī)范的制定,通常稱(chēng)之為標(biāo)準(zhǔn)需求。下圖顯示所需的規(guī)范類(lèi)型及其相互關(guān)聯(lián)。

以下是關(guān)于各個(gè)規(guī)范的簡(jiǎn)介:

1.網(wǎng)關(guān)架構(gòu)規(guī)范

該規(guī)范定義建立一個(gè)總體架構(gòu)的參照模型,使之能滿(mǎn)足基于VoiceXML瀏覽機(jī)制的語(yǔ)音平臺(tái)的需要。該規(guī)范具體規(guī)定:

1)定義一個(gè)描述系統(tǒng)結(jié)構(gòu)的框架;
2)定義一個(gè)描述系統(tǒng)結(jié)構(gòu)、功能與應(yīng)用的詞匯表和符號(hào)集;
3)定義一個(gè)在系統(tǒng)構(gòu)件之間進(jìn)行信息交換的格式、協(xié)議和方法;
4)為系統(tǒng)構(gòu)件定義必需的和可選的外界硬件接口和軟件程序接口;
5)為系統(tǒng)構(gòu)件的行為定義規(guī)則、規(guī)范與約定;
6)指出系統(tǒng)構(gòu)件應(yīng)該使用的外部服務(wù)和設(shè)備以建立和支持信息交換。

總之,本規(guī)范將為系統(tǒng)構(gòu)建提供文件和配置指南。

2.術(shù)語(yǔ)詞匯規(guī)范

本規(guī)范將定義所有的在本標(biāo)準(zhǔn)體系中其他規(guī)范中需使用的術(shù)語(yǔ)和詞匯。

3.信路與路由相關(guān)規(guī)范

該規(guī)范定義在語(yǔ)音網(wǎng)關(guān)系統(tǒng)中,所支持的信路標(biāo)準(zhǔn),以及各種信路之間的路由控制、各種信路的接口和信令轉(zhuǎn)換規(guī)范。

4.用戶(hù)管理與計(jì)費(fèi)規(guī)范

本規(guī)范定義在語(yǔ)音網(wǎng)關(guān)系統(tǒng)中,對(duì)用戶(hù)的管理機(jī)制和針對(duì)不同用戶(hù)需求和其自定義的相關(guān)信息的管理機(jī)制。其中還包括按時(shí)計(jì)費(fèi)或按項(xiàng)目計(jì)費(fèi)的規(guī)范。

5.語(yǔ)音瀏覽器相關(guān)規(guī)范

該規(guī)范中定義語(yǔ)音網(wǎng)關(guān)所使用的語(yǔ)音瀏覽器的具體規(guī)范,其中包括瀏覽器中的解析器規(guī)范、識(shí)別引擎、合成引擎、語(yǔ)音通道等以及各模塊之間的溝通和互動(dòng)機(jī)制。

6.Media與控制規(guī)范

該規(guī)范定義在語(yǔ)音網(wǎng)關(guān)中,所支持的Media 格式、編碼和各media 文件的存儲(chǔ)、組織和管理規(guī)范,以及Media 的控制機(jī)制。

7.本地化標(biāo)準(zhǔn)

該規(guī)范定義在語(yǔ)音網(wǎng)關(guān)中,對(duì)本地化文字、語(yǔ)言的支持和實(shí)現(xiàn)規(guī)范,包括多語(yǔ)種支持和未來(lái)可能實(shí)現(xiàn)的語(yǔ)種轉(zhuǎn)換。

8.數(shù)據(jù)與元數(shù)據(jù)規(guī)范

在語(yǔ)音網(wǎng)關(guān)中,我們將對(duì)各類(lèi)數(shù)據(jù)對(duì)象的描述信息稱(chēng)為元數(shù)據(jù),而本規(guī)范應(yīng)當(dāng)定義對(duì)這些數(shù)據(jù)對(duì)象的查找、管理和使用。通過(guò)定義一個(gè)統(tǒng)一的結(jié)構(gòu),對(duì)數(shù)據(jù)對(duì)象進(jìn)行描述,從而增強(qiáng)各數(shù)據(jù)對(duì)象的互操作性。

五 語(yǔ)音ICP建設(shè)規(guī)范

本規(guī)范為語(yǔ)音應(yīng)用體系的服務(wù)方提供通用的HTTP綁定內(nèi)容,這樣開(kāi)發(fā)者在服務(wù)器端和客戶(hù)端(主要是服務(wù)器端)進(jìn)行系統(tǒng)開(kāi)發(fā)時(shí)能夠遵循一致的內(nèi)容傳送和查詢(xún)的要求。

在這些規(guī)范中,我們將定義:

1.語(yǔ)音應(yīng)用描述規(guī)范

該規(guī)范定義如何描述一個(gè)語(yǔ)音應(yīng)用,主要是針對(duì)voiceXML規(guī)范的理解和支持規(guī)范,以及基于VoiceXML描述的語(yǔ)音應(yīng)用的體系規(guī)范和數(shù)據(jù)定義。

2.語(yǔ)音應(yīng)用語(yǔ)法描述規(guī)范

該規(guī)范主要描述在對(duì)語(yǔ)音網(wǎng)關(guān)的支持中,如何根據(jù)語(yǔ)音網(wǎng)關(guān)的識(shí)別引擎和合成引擎的特性,描述和定義識(shí)別語(yǔ)法和合成語(yǔ)法,并制定和管理可重用的語(yǔ)法模塊。以及一些通用性的語(yǔ)法模塊的規(guī)范定義和接口定義。

3.數(shù)據(jù)應(yīng)用開(kāi)發(fā)規(guī)范

該規(guī)范將定義在語(yǔ)音應(yīng)用中,針對(duì)不同的數(shù)據(jù)內(nèi)容,應(yīng)該建立相應(yīng)的開(kāi)發(fā)規(guī)范,使之符合語(yǔ)音應(yīng)用服務(wù)的特征和語(yǔ)音網(wǎng)關(guān)的需求,為用戶(hù)提供優(yōu)質(zhì)的良好交互性的服務(wù)。在數(shù)據(jù)應(yīng)用開(kāi)發(fā)規(guī)范中,定義對(duì)不同數(shù)據(jù)服務(wù)系統(tǒng)和開(kāi)發(fā)語(yǔ)音的支持(如對(duì)各種Web Application Server 的支持以及對(duì)java Bean 和Java Script 等語(yǔ)言和對(duì)象描述的支持)。以及各種數(shù)據(jù)應(yīng)用中的交互接口規(guī)范。

4.發(fā)布和管理規(guī)范

在該規(guī)范中,定義語(yǔ)音應(yīng)用在語(yǔ)音網(wǎng)關(guān)上的發(fā)布和鏈接規(guī)范,并定義對(duì)已發(fā)布或測(cè)試狀態(tài)中的語(yǔ)音應(yīng)用的管理規(guī)范。使語(yǔ)音網(wǎng)關(guān)能夠清晰的實(shí)現(xiàn)對(duì)各個(gè)語(yǔ)音ICP發(fā)布的語(yǔ)音服務(wù)應(yīng)用的執(zhí)行和管理,建立在線(xiàn)動(dòng)態(tài)內(nèi)容更新機(jī)制以及針對(duì)服務(wù)項(xiàng)目性的計(jì)費(fèi)管理、日志管理或遠(yuǎn)程維護(hù)、控制。

五 終端產(chǎn)品規(guī)范

針對(duì)語(yǔ)音應(yīng)用體系,在用戶(hù)端的終端產(chǎn)品可以大有所為。而終端產(chǎn)品規(guī)范則定義在終端產(chǎn)品中語(yǔ)音應(yīng)用服務(wù)所帶來(lái)的技術(shù)改變和實(shí)現(xiàn)規(guī)范。

該規(guī)范包括:

1.語(yǔ)音信號(hào)處理規(guī)范

該規(guī)范定義在各種終端設(shè)備中,針對(duì)語(yǔ)音應(yīng)用服務(wù)系統(tǒng)的特性需求,需要對(duì)語(yǔ)音信號(hào)進(jìn)行的編碼處理、抗噪處理和噪聲過(guò)濾等技術(shù)規(guī)范。

2.熱鍵定義規(guī)范

該規(guī)范試圖建立一種將電話(huà)按鍵與特色語(yǔ)音應(yīng)用項(xiàng)目之間的對(duì)應(yīng)規(guī)范,定義諸如 1 鍵 對(duì)于語(yǔ)音郵件 ,* 鍵對(duì)應(yīng)幫助、#鍵對(duì)應(yīng)按鍵輸入結(jié)束等等的熱鍵定義規(guī)范,建立用戶(hù)對(duì)語(yǔ)音應(yīng)用系統(tǒng)和服務(wù)項(xiàng)目的使用習(xí)慣。

3.內(nèi)嵌式數(shù)據(jù)服務(wù)規(guī)范

該規(guī)范定義在語(yǔ)音應(yīng)用體系中,可以針對(duì)語(yǔ)音應(yīng)用的特色而在終端設(shè)備中可以嵌入的一些數(shù)據(jù)服務(wù)的具體技術(shù)規(guī)范,如基于智能卡的身份認(rèn)證、數(shù)據(jù)銀行、電子卡貨幣等,以及未來(lái)可能實(shí)現(xiàn)的內(nèi)嵌語(yǔ)音識(shí)別或合成引擎、數(shù)據(jù)交換規(guī)范等等。

我們可以預(yù)見(jiàn),在不久的將來(lái)電話(huà)作為信息訪問(wèn)的終端將遠(yuǎn)遠(yuǎn)超過(guò)電腦的數(shù)量。語(yǔ)音應(yīng)用技術(shù)將成為統(tǒng)一信息、統(tǒng)一網(wǎng)絡(luò)的移動(dòng)互聯(lián)中的重要技術(shù)成分。作為高科技的網(wǎng)絡(luò)信息對(duì)廣大的中國(guó)百姓將不在神秘,中國(guó)百姓將隨時(shí)隨地在對(duì)電話(huà)機(jī)或手機(jī)說(shuō)話(huà),享受語(yǔ)音應(yīng)用技術(shù)為他們帶來(lái)的美好服務(wù)。



相關(guān)鏈接:
關(guān)于制定中國(guó)移動(dòng)互聯(lián)網(wǎng)語(yǔ)音應(yīng)用協(xié)議標(biāo)準(zhǔn)的建議 2001-11-12
語(yǔ)音互聯(lián)再造Internet 2001-10-22
語(yǔ)音系統(tǒng)開(kāi)發(fā)的新平臺(tái):VoiceXML瀏覽器 2001-10-19
TTS與語(yǔ)音識(shí)別軟件 2001-09-21
Office XP中文語(yǔ)音功能的開(kāi)發(fā) 2001-09-13
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 太谷县| 金乡县| 高阳县| 托克逊县| 稷山县| 东阿县| 潞城市| 永春县| 临澧县| 思茅市| 屏东市| 湟中县| 时尚| 木兰县| 漳州市| 郎溪县| 正镶白旗| 黑山县| 黔南| 城固县| 项城市| 盐城市| 闻喜县| 邹平县| 长白| 靖江市| 比如县| 宝山区| 从江县| 海安县| 夏津县| 甘德县| 通化县| 青岛市| 青川县| 乌鲁木齐县| 互助| 共和县| 湄潭县| 桐梓县| 任丘市| http://444 http://444 http://444 http://444 http://444 http://444