訊飛語(yǔ)音互聯(lián)網(wǎng)解決方案
2001/07/31
一、市場(chǎng)機遇分析
1、互聯(lián)網(wǎng)信息的爆炸性增長(cháng)
近年來(lái),全球范圍內Internet出現了爆炸性的增長(cháng),在極大的提高全社會(huì )的運作效率的同時(shí),自身也在使用成本、可用性、易操作性等方面不斷進(jìn)步;現在Internet的主體顯然已經(jīng)是全球廣大網(wǎng)民了。據中國互聯(lián)網(wǎng)中心年初的調查報告,目前有約2000萬(wàn)人使用互聯(lián)網(wǎng),而其中80%以上的用戶(hù)使用互聯(lián)網(wǎng)主要的目的就是獲取信息。隨著(zhù)互聯(lián)網(wǎng)信息的爆炸性增長(cháng)人們對于信息的需求也有了越來(lái)越高的要求:
在信息的獲取手段上,電話(huà)、傳真、計算機、PDA等各種多媒體信息終端競相發(fā)揮著(zhù)自己的優(yōu)勢,但同時(shí)人們更希望能夠不受任何時(shí)間、空間以及設備的限制更自由的獲取信息;隨著(zhù)工作與生活節奏的加快,使信息的時(shí)效性尤為凸顯,股市行情、價(jià)格動(dòng)態(tài)、促銷(xiāo)信息等等動(dòng)態(tài)信息為信息供求雙方帶來(lái)巨大的經(jīng)濟效益,而來(lái)自于計算機網(wǎng)絡(luò )和數據庫中的信息,利用先進(jìn)的計算機技術(shù)進(jìn)行搜索和整理之后為人們提供的信息在市場(chǎng)全球化趨勢下顯得更為重要;互聯(lián)網(wǎng)為用戶(hù)提供了豐富多彩的個(gè)性化服務(wù)、交互式服務(wù),電子商務(wù)的發(fā)展使企業(yè)與企業(yè)之間、企業(yè)與用戶(hù)之間的溝通更為密切、更為深入,越來(lái)越多的人需要定制服務(wù)的類(lèi)型和內容,來(lái)滿(mǎn)足不同人的要求。
2、計算機網(wǎng)絡(luò )設施和應用水平限制
互聯(lián)網(wǎng)是在計算機應用普及到一定階段的產(chǎn)物。而在我國,計算機網(wǎng)絡(luò )產(chǎn)業(yè)的起步卻早于計算機應用的普及。計算機普及率尚未達到要求,網(wǎng)絡(luò )建設也有待加強,由于地區的差異和經(jīng)濟水平的限制,我國上網(wǎng)的企業(yè)和個(gè)人半數以上分布于沿海發(fā)達城市,對于大多數普通百姓而言,計算機應用水平仍然很低,而主動(dòng)使用計算機上網(wǎng)獲取信息的意識更有待加強。因此讓互聯(lián)網(wǎng)絡(luò )帶來(lái)的便利服務(wù)于尋常百姓家就存在著(zhù)各種各樣的障礙。
而公用電話(huà)網(wǎng)(PSTN)經(jīng)過(guò)這些年的發(fā)展,電話(huà)終端的普及率已經(jīng)達到了相當的水平,目前我國的電話(huà)網(wǎng)絡(luò )用戶(hù)超過(guò)二億以上。相比之下使用電話(huà)獲取信息更符合我國目前的信息發(fā)展現狀。
3、矛盾的解決創(chuàng )造的市場(chǎng)機遇
信息的爆炸性增長(cháng)、互聯(lián)網(wǎng)服務(wù)的不斷提升,和計算機網(wǎng)絡(luò )設施和應用水平的限制成為了一對日益突出的矛盾。語(yǔ)音互聯(lián)網(wǎng)運用電話(huà)服務(wù)方式所具有的廣泛的普及性和使用的方便性等特點(diǎn),克服了現階段計算機網(wǎng)絡(luò )設施和應用水平的限制,為我國的信息服務(wù)業(yè)的發(fā)展提供了一個(gè)難得的市場(chǎng)機遇。
因而語(yǔ)音互聯(lián)網(wǎng)工程已經(jīng)被各大電信運營(yíng)商列入增值服務(wù)的計劃之中,如移動(dòng)的夢(mèng)網(wǎng)工程。AT&T Wireless公司日前宣布,提供語(yǔ)音門(mén)戶(hù)站點(diǎn),讓客戶(hù)利用語(yǔ)音命令沖浪無(wú)線(xiàn)Web,提供這類(lèi)服務(wù)的運營(yíng)商正日益增多。
二、方案中的核心技術(shù)
語(yǔ)音互聯(lián)網(wǎng)要求系統可以進(jìn)行動(dòng)態(tài)、海量信息的數據查詢(xún)以及互聯(lián)網(wǎng)絡(luò )上信息的訪(fǎng)問(wèn),需使用的核心技術(shù)有:
對于信息服務(wù)來(lái)說(shuō),TTS和ASR的融合意味著(zhù)兩重含義。其一,由于聲音更加接近人類(lèi)的語(yǔ)言,改進(jìn)后的TTS增強了用戶(hù)對該技術(shù)的認可程度;其二,更加自然的TTS和高質(zhì)量的語(yǔ)音識別器能讓計算機和人們進(jìn)行真正意義上的對話(huà),這樣,計算機就能理解對方(人)說(shuō)的什么,并且在自己模糊不清的時(shí)候,向對方(人)詢(xún)問(wèn),在交流中明晰客戶(hù)的需求。
1、核心技術(shù)描述
語(yǔ)音合成技術(shù)
語(yǔ)音合成技術(shù)的本質(zhì)是將文本信息轉化為語(yǔ)音信息,是實(shí)現人機語(yǔ)音通信,建立一個(gè)有聽(tīng)和講能力的口語(yǔ)系統所必需的關(guān)鍵技術(shù)之一。
在信息爆炸式增長(cháng)的現代社會(huì ),信息有兩個(gè)很顯著(zhù)的特征:信息量大、信息變化快。但是對于電話(huà)信息服務(wù)系統來(lái)說(shuō),它與客戶(hù)之間的“界面” 主要是語(yǔ)音,如何用語(yǔ)音來(lái)傳遞這些海量和動(dòng)態(tài)的信息,這就是必須用到語(yǔ)音合成技術(shù)。
傳統的預錄音方式,需要人工將這些信息以錄音的方式預先存放好,其漫長(cháng)的制作周期和繁重的工作量,顯然已經(jīng)越來(lái)越顯得力不從心。而語(yǔ)音合成技術(shù)(TEXT TO SPEECH),能夠將各種文字信息轉化成連續的語(yǔ)音,是電話(huà)信息服務(wù)系統成為提供高質(zhì)量、智能化的語(yǔ)音服務(wù)的關(guān)鍵技術(shù),可以預見(jiàn),語(yǔ)音合成技術(shù)在電話(huà)信息服務(wù)行業(yè)中將會(huì )有非常廣闊的應用前景。
語(yǔ)音識別技術(shù)
語(yǔ)言是人類(lèi)進(jìn)行信息交流的最主要、最常用、最直接的方式。語(yǔ)音識別技術(shù)是實(shí)現人-機對話(huà)的一項重大突破,在國外近年來(lái)發(fā)展十分迅速,其應用也逐步得到推廣。
傳統電話(huà)服務(wù)從事服務(wù)性行業(yè)的公司通過(guò)大量客戶(hù)服務(wù)員為客戶(hù)翻查和處理所需資料,答復客戶(hù)所需的資訊,但是長(cháng)期聘用和培訓大量這些客戶(hù)服務(wù)員,成本大幅上升,并且容易造成人為的失誤,嚴重地影響到企業(yè)的服務(wù)質(zhì)量和形象。近幾年逐漸普及的電話(huà)自動(dòng)應答(IVR)處理了不少簡(jiǎn)單而又重復的咨詢(xún)工作,節省生了不少人力,但這種按鍵式的語(yǔ)音自動(dòng)應答系統卻讓客戶(hù)花費很多時(shí)間選擇按所需目錄指引來(lái)完成的簡(jiǎn)單查詢(xún),令用戶(hù)倍感煩惱。“語(yǔ)音識別”無(wú)疑可解決該方面的問(wèn)題。
語(yǔ)音識別系統的開(kāi)發(fā)成功,充分發(fā)揮計算機技術(shù)和網(wǎng)絡(luò )技術(shù)的優(yōu)勢,采用先進(jìn)的人-機語(yǔ)言對話(huà)方式,擺脫電話(huà)按鍵的束縛,人們只要像平常一樣對著(zhù)電話(huà)簡(jiǎn)單地說(shuō)出所需服務(wù)項目即可輕松獲取自動(dòng)系統提供的所需信息。
VXML技術(shù)
AT&T,朗訊,摩托羅拉與其他17家公司于1999年聯(lián)合推出語(yǔ)音擴展語(yǔ)言論壇(VXML),用以擬定一項標準,此標準能夠將語(yǔ)音、電話(huà)用于因特網(wǎng)。除為消費者服務(wù)外,VXML還支持一些商務(wù)應用,如話(huà)務(wù)中心、銀行交易和電子商務(wù)。
其他方面的應用包括:因特網(wǎng)用戶(hù)核對電子郵件,獲得天氣預報、股市行情和其他來(lái)自電話(huà)線(xiàn)的在線(xiàn)數據。用戶(hù)也可編寫(xiě)自己的VXML應用。AT&T,朗訊,摩托羅拉一直都在致力于VXML的不同版本,但基本途徑相同。最終目標是產(chǎn)生統一的標準。
語(yǔ)音互聯(lián)網(wǎng)是以先進(jìn)的CTI技術(shù)以及開(kāi)放的Voice XML工業(yè)標準為基礎,架構在CHINANET網(wǎng)上的ICP;通過(guò)電話(huà)暢游互聯(lián)網(wǎng),輕松“聽(tīng)”網(wǎng)上的信息,“說(shuō)”E-mail,“點(diǎn)擊”網(wǎng)上的鏈接。這是對傳統電話(huà)信息服務(wù)的一個(gè)重大改革;因為接入服務(wù)和內容服務(wù)的分離,電話(huà)信息服務(wù)行業(yè)變成了一個(gè)開(kāi)放式的行業(yè),所有傳統的ICP都可以按照Voice XML的標準為提供內容服務(wù),而豐富多樣的內容又必然會(huì )刺激用戶(hù)的增加以及服務(wù)需求的增長(cháng)。由于引入了VXML相關(guān)技術(shù),可將平臺的復雜內容屏蔽,無(wú)須熟悉底層平臺即可進(jìn)行高層應用開(kāi)發(fā);大大的減輕的開(kāi)發(fā)的難度,縮短開(kāi)發(fā)周期,降低人力成本。
2、訊飛在核心技術(shù)上的優(yōu)勢
訊飛公司是國內唯一以語(yǔ)音為產(chǎn)業(yè)化方向的863成果產(chǎn)業(yè)化基地。訊飛漢語(yǔ)語(yǔ)音合成技術(shù),是在國家863項目、九五攻關(guān)項目、國家自然科學(xué)基金項目、以及中國科學(xué)院八五重大項目的支持下,歷經(jīng)十余年拼搏成為國內外同類(lèi)技術(shù)中脫穎而出的"領(lǐng)頭羊"。
KD 2000漢語(yǔ)文語(yǔ)轉換系統不僅在語(yǔ)音合成技術(shù)方面有進(jìn)一步的發(fā)展,特別是在文本預處理中圍繞層次化結構思想,運用大量的統計和規則的方法,較好地解決了三個(gè)大的處理環(huán)節:特殊符號處理,分詞處理和拼接處理,使得其在整體性能有很大提高。以KD 2000文語(yǔ)轉換為核心各種行業(yè)及桌面應用產(chǎn)品已開(kāi)始在市場(chǎng)占有一席之地,并與聯(lián)想、華為等業(yè)界領(lǐng)先廠(chǎng)商建立戰略合作關(guān)系。
KD 2000作為訊飛主流語(yǔ)音合成技術(shù)的代表,擁有業(yè)界頂尖的合成效果。1999年11月18日,在國家863計劃智能計算機主題專(zhuān)家組鑒定會(huì )上,KD 2000被評定在漢語(yǔ)文語(yǔ)轉技術(shù)上處于國際領(lǐng)先、實(shí)用化方面已走在世界前列,并建議加速產(chǎn)業(yè)化進(jìn)程。2000年6月,訊飛KD 2000中文語(yǔ)音合成系統獲得了“2000年中國國際軟件博覽會(huì )”參展產(chǎn)品創(chuàng )新獎。
同時(shí)KD 2000已經(jīng)受了行業(yè)用戶(hù)的大規模大壓力應用的考驗,通過(guò)了國際著(zhù)名服務(wù)器提供商的綜合測試,同時(shí)也通過(guò)了國內最大的電信設備提供商大壓力穩定性測試,以及國內計算機行業(yè)最負盛名的廠(chǎng)商所進(jìn)行的性能測試。
隨著(zhù)訊飛公司的成長(cháng),訊飛已經(jīng)在CTI平臺領(lǐng)域、呼叫中心領(lǐng)域、系統集成行業(yè)、語(yǔ)音板卡領(lǐng)域擁有眾多的開(kāi)發(fā)伙伴。
在語(yǔ)音識別方面,訊飛是中文語(yǔ)音識別標準化工作組成員單位,歷屆863語(yǔ)音識別唯一指定評測單位以及國家863語(yǔ)音識別數據庫提供單位。
而在業(yè)界語(yǔ)音技術(shù)規范制定過(guò)程中,訊飛作為唯一的企業(yè)代表,與科技部、技術(shù)監督 局、信標委共同制定中國中文語(yǔ)音技術(shù)標準接口。同時(shí)訊飛也是國家S863項目中文信息發(fā)展規劃的起草單位和國內權威的語(yǔ)音標準制定組織��中國中文語(yǔ)音創(chuàng )業(yè)聯(lián)盟的發(fā)起者與組織者。
在VXML方面,訊飛成功的開(kāi)發(fā)出Voice VXML Server,可在P III 500上同時(shí)支持120并發(fā)訪(fǎng)問(wèn)。另一方面,訊飛也是VXML的權威組織——“VXML論壇”的成員之一。
三、語(yǔ)音互聯(lián)網(wǎng)的建設
語(yǔ)音互聯(lián)網(wǎng)的建設構架于電信運營(yíng)商現有的電話(huà)接入平臺之上,在不影響現有平臺的結構和業(yè)務(wù)功能的前提下,主要需完成三個(gè)功能模塊的系統建設。在動(dòng)態(tài)信息和海量信息的查詢(xún)業(yè)務(wù)上,首先必須完成的是對原有的數字錄音回放方式向TTS平臺的升級;進(jìn)而在進(jìn)行了TTS改造的平臺上構建互聯(lián)網(wǎng)上的公共信息查詢(xún)服務(wù)和個(gè)性化信息查詢(xún)服務(wù);考慮到實(shí)際運用情況,在具體業(yè)務(wù)方面建設有聲電子郵件系統,使語(yǔ)音互聯(lián)網(wǎng)能具備Internet最重要的服務(wù)之一 ——“電子郵件服務(wù)”。
1、TTS系統的建設
傳統的數字錄音回放方式需要人工進(jìn)行錄音,新興的計算機技術(shù)��“語(yǔ)音合成”,可以運用有限的系統資源將無(wú)限的文本信息合成為可聽(tīng)的語(yǔ)音信息,從而可以改進(jìn)傳統的錄音回放方式。在不改變現有平臺的基礎上建立的TTS系統可以在信息服務(wù)的信息源提供上帶來(lái)如下改進(jìn):
2、VXML系統的建設
互聯(lián)網(wǎng)絡(luò )是目前信息的一個(gè)最重要的載體,在互聯(lián)網(wǎng)迅速普及并不斷發(fā)展的今天,大量的公共信息可以在網(wǎng)絡(luò )上查詢(xún)得到。越來(lái)越多的信息服務(wù)商和個(gè)人在網(wǎng)絡(luò )上提供信息,同時(shí)越來(lái)越多的人群正在享受網(wǎng)絡(luò )所帶來(lái)的便利。
電信運營(yíng)商自身?yè)碛袕姶蟮男畔⒅谱髂芰Γ绾卫煤没ヂ?lián)網(wǎng)絡(luò )豐富的資源,以適應信息時(shí)代用戶(hù)的需求,也是一項重要的工作。
VXML系統的目的就是為了使電話(huà)和語(yǔ)音可以應用在互聯(lián)網(wǎng)絡(luò )之上,除為消費者服務(wù)外,VXML還支持一些商務(wù)應用,如話(huà)務(wù)中心、銀行交易和電子商務(wù)。通過(guò)VXML技術(shù)可以使語(yǔ)音互聯(lián)網(wǎng)訪(fǎng)問(wèn)到Internet Web上的各種信息,并實(shí)現信息的交互。再結合語(yǔ)音合成技術(shù),將文本信息合成為語(yǔ)音信號,用戶(hù)就可以通過(guò)IVR平臺來(lái)訪(fǎng)問(wèn)Web頁(yè)面上的信息了。
結合VXML技術(shù),語(yǔ)音互聯(lián)網(wǎng)平臺可以提供更多的個(gè)人信息服務(wù):包括商品交易、金融交易、求職招聘等。相對傳統的同類(lèi)服務(wù),此類(lèi)服務(wù)與Internet信息共享,更為貼近用戶(hù)和可以面對更廣泛的人群。
3、Voice-Mail系統建設
90年代中期,Internet進(jìn)入中國,在這短短的幾年內,得到了長(cháng)足的發(fā)展,基于Internet上的業(yè)務(wù)日新月異。其中電子郵件不僅成為廣大網(wǎng)民信息交流的重要手段,也成為各個(gè)企業(yè)開(kāi)展商務(wù)活動(dòng)的重要手段,電子郵件的用戶(hù)群是一個(gè)十分巨大的群體。
但中國的國情決定了不是每一個(gè)電子郵件的用戶(hù)都能夠方便地查閱自己的郵件。同時(shí),在現實(shí)生活中,也存在著(zhù)許多不能及時(shí)、方便地查閱自己郵件的情況。
統一消息系統(UMS)是一個(gè)將各種傳播手段整合的系統,結合了各種網(wǎng)絡(luò ),用戶(hù)可以使用電話(huà)、手機、傳真、呼機、數字移動(dòng)設備和個(gè)人電腦等途徑與系統交互信息。在語(yǔ)音互聯(lián)網(wǎng)平臺中加入UMS系統,將有助于平臺提供更多樣化的服務(wù),與用戶(hù)結合更為緊密。
有聲電子郵件(Voice-Mail)系統就是UMS系統的一個(gè)具體應用,它通過(guò)電話(huà)、手機等通信工具可以向用戶(hù)提供Internet上的E-mail服務(wù)。因而人們可以不受設備的限制,隨時(shí)隨地的收發(fā)電子郵件,即使身處異地,仍然不會(huì )錯過(guò)E-mail中攜帶動(dòng)重要商機。
四、語(yǔ)音互聯(lián)網(wǎng)業(yè)務(wù)介紹
通過(guò)以上三個(gè)系統的建設,電信運營(yíng)商將可以?xún)?yōu)化本系統內的資源組合,同時(shí)結合互聯(lián)網(wǎng)絡(luò )、移動(dòng)通訊網(wǎng)絡(luò ),開(kāi)發(fā)出更多更好的節目。如金融股票信息、考試查分、防偽查詢(xún)、新聞點(diǎn)播、有聲郵件等。整個(gè)系統更易于開(kāi)展新種類(lèi)的業(yè)務(wù),更易于維護,資源占用更少。
從業(yè)務(wù)開(kāi)發(fā)模式劃分可以將其分成兩個(gè)類(lèi)別,海量動(dòng)態(tài)信息查詢(xún)和互聯(lián)網(wǎng)信息查詢(xún)。海量動(dòng)態(tài)信息查詢(xún)業(yè)務(wù)主要開(kāi)發(fā)工作是通過(guò)現有的服務(wù)平臺進(jìn)行的,服務(wù)平臺通過(guò)查詢(xún)本系統內數據庫或其他信息源取得文本數據,然后通過(guò)TTS Server提供的TTS服務(wù)返回語(yǔ)音數據文件播放給用戶(hù)。例如:新聞查詢(xún)、防偽查詢(xún)、高考查分等;互聯(lián)網(wǎng)信息查詢(xún)業(yè)務(wù)將互聯(lián)網(wǎng)絡(luò )與電話(huà)公眾網(wǎng)結合,從而使用戶(hù)可以通過(guò)普及便利的電話(huà)、手機、傳真等方式獲取互聯(lián)網(wǎng)上豐富的信息。具體業(yè)務(wù)如:Voice-Portal、Voice-Mail等。
1、海量動(dòng)態(tài)信息查詢(xún)
海量動(dòng)態(tài)信息的查詢(xún)主要有:證券金融信息、法律法規、政府公告、交通、運輸、路況信息、旅游信息、考試信息等的查詢(xún)。這類(lèi)信息的特點(diǎn)有兩個(gè):
訊飛與一些地市160/168聲訊臺合作推出的為個(gè)人和機構投資者提供有關(guān)金融信息聲訊服務(wù)的系統就是一個(gè)典型的應用。這項業(yè)務(wù)包括具有鮮明特色的預警系統、實(shí)時(shí)投資分析、實(shí)時(shí)股票行情、財經(jīng)新聞、技術(shù)分析報告和市場(chǎng)評論等。投資者簡(jiǎn)單方便地通過(guò)電話(huà)(固定電話(huà)或移動(dòng)電話(huà))、傳呼、短消息系統、電子郵件、傳真和電腦來(lái)接收這些重要信息。系統也可隨時(shí)跟蹤他的投資組合為其提供個(gè)性化的信息服務(wù)。這些高度個(gè)性化的信息服務(wù)將即時(shí)通知用戶(hù)其投資證券價(jià)格的變化、重要新聞和其它相關(guān)信息,提高用戶(hù)的投資回報率。
2、個(gè)性化信息服務(wù)
個(gè)性化信息服務(wù)即指為個(gè)人提供的滿(mǎn)足其具體需求的信息服務(wù),有兩個(gè)方面的要求:一是信息的及時(shí)性;二是獲得信息手段的便利性。
具體業(yè)務(wù)包括:統一消息服務(wù)、個(gè)性化新聞/信息、個(gè)人信息助理、統一通信服務(wù)等。
用戶(hù)只需通過(guò)電話(huà)就可以享受到互聯(lián)網(wǎng)上提供的各種個(gè)性化的信息服務(wù),可以定制網(wǎng)上新聞、設置個(gè)人行程安排。而另一方面用戶(hù)在獲取信息時(shí)可以采取電話(huà)、E-mail、傳真等各種手段。
訊飛與上海知名的ISP聯(lián)合推出的Voice-Mail系統,就是基于電話(huà)、手機、傳真等通信工具,結合互聯(lián)網(wǎng)絡(luò )的電子郵件,為用戶(hù)收發(fā)電子郵件提供形式多樣的便利手段。
3、接入平臺出租
語(yǔ)音互聯(lián)網(wǎng)具有上面提及的先進(jìn)功能之外,其更具備良好的可擴展性,在系統之上可以方便的拓展新的業(yè)務(wù),可以為企業(yè)提供優(yōu)質(zhì)的平臺,以方便企業(yè)提供更多的信息給客戶(hù),加強企業(yè)與客戶(hù)之間的溝通。
具體的業(yè)務(wù)有:企業(yè)網(wǎng)站的電話(huà)語(yǔ)音訪(fǎng)問(wèn)、企業(yè)客戶(hù)服務(wù)中心、物流信息平臺、用戶(hù)通知服務(wù)、信息采集服務(wù)等。
將此類(lèi)業(yè)務(wù)出租給企業(yè),可以將企業(yè)的網(wǎng)站內容直接轉換成服務(wù)信息,更多的客戶(hù)將可通過(guò)電話(huà)訪(fǎng)問(wèn)企業(yè)網(wǎng)站,為企業(yè)提供了多樣化的信息發(fā)布平臺。
4、電話(huà)語(yǔ)音廣告
電話(huà)語(yǔ)音廣告具體有提示音廣告、等待時(shí)間廣告、背景音樂(lè )廣告等等。電話(huà)語(yǔ)音廣告與傳統廣告相比具有很大優(yōu)勢:即時(shí)查詢(xún)、內容豐富、特號專(zhuān)用、即時(shí)播報、廣告費低、撥打者免費收聽(tīng)等。該類(lèi)廣告業(yè)務(wù)開(kāi)通后,將受到企事業(yè)單位的普遍歡迎。
科大訊飛供稿 CTI論壇編輯