盧曉信、段云峰 2001/06/25
語(yǔ)音技術(shù),雖然在國外出現得很早,但在國內開(kāi)始步入實(shí)用領(lǐng)域,還是最近的事情。這一方面是因為硬件處理能力的提高,另一方面也是因為漢語(yǔ)處理在技術(shù)上已經(jīng)有所突破。國外有資料顯示,語(yǔ)音技術(shù)在未來(lái)的幾年里,將以31%的年增長(cháng)率進(jìn)行發(fā)展。
語(yǔ)音技術(shù)主要是指基于語(yǔ)音進(jìn)行處理的技術(shù),主要包括:語(yǔ)音識別ASR、語(yǔ)音合成TTS等等。
語(yǔ)音技術(shù)進(jìn)入商用
語(yǔ)音技術(shù)開(kāi)辟了一個(gè)如此巨大的應用市場(chǎng),那么目前的語(yǔ)音技術(shù)發(fā)展到何種程度了呢?
技術(shù)成熟進(jìn)入商用
在技術(shù)方面,英語(yǔ)的語(yǔ)音技術(shù)比漢語(yǔ)的語(yǔ)音技術(shù)的商用程度更廣,實(shí)用程度更好。國內在漢語(yǔ)的語(yǔ)音技術(shù)方面,語(yǔ)音合成技術(shù)比較成熟,已經(jīng)達到了商用的標準。而在語(yǔ)音識別方面,雖然已經(jīng)有一些產(chǎn)品開(kāi)始投入商用,但還有很多的技術(shù)問(wèn)題要解決。
廠(chǎng)家眾多
由于語(yǔ)音技術(shù)不僅要涉及到軟件算法,而且也要涉及到硬件的實(shí)現技術(shù)問(wèn)題,因此,目前的語(yǔ)音技術(shù)廠(chǎng)家,也分為幾類(lèi)。
有的是從傳統的CTI語(yǔ)音板卡廠(chǎng)商的角度,在產(chǎn)品中增加語(yǔ)音處理功能,國內像深圳東進(jìn)技術(shù)、飛環(huán),國外NMS、Intel通信產(chǎn)品事業(yè)部的Dialogic板卡;有的完全是語(yǔ)音技術(shù)的科研機構,根據自己的研究成果,進(jìn)行產(chǎn)品化,例如中國科技大學(xué)的訊飛公司、清華大學(xué)的人機交互與媒體集成研究所等。在語(yǔ)音識別方面,國外的IBM、飛利浦、Nuance等公司,均有相關(guān)的產(chǎn)品;國內的有香港的InfoTalk、捷通等。
在語(yǔ)音合成方面,能夠提供產(chǎn)品的公司就十分多了,有的產(chǎn)品是用軟件來(lái)實(shí)現,有的專(zhuān)門(mén)設計了硬件芯片。
促進(jìn)網(wǎng)絡(luò )的融合
語(yǔ)音技術(shù)的發(fā)展,帶動(dòng)了網(wǎng)絡(luò )的融合過(guò)程。目前,世界上的兩大通信網(wǎng)絡(luò )是電信網(wǎng)和計算機網(wǎng),電信網(wǎng)絡(luò )是以語(yǔ)音信號為處理對象,計算機網(wǎng)絡(luò )則是以數據對象為其處理內容。而語(yǔ)音技術(shù)為兩個(gè)網(wǎng)絡(luò )的結合,奠定了技術(shù)基礎。
在為用戶(hù)服務(wù)的過(guò)程中,兩種網(wǎng)絡(luò )分別扮演不同的角色。
語(yǔ)音接入通過(guò)PSTN
目前,人們進(jìn)行信息交流的主要方式,還是通過(guò)電話(huà)網(wǎng)。用戶(hù)可以通過(guò)撥打一個(gè)電話(huà)號碼,接入到信息訪(fǎng)問(wèn)中心。
語(yǔ)音處理依靠計算機網(wǎng)絡(luò )
計算機網(wǎng)絡(luò )最大的優(yōu)點(diǎn)是處理信息的能力十分強大。因此,采用語(yǔ)音技術(shù),計算機就可以讀懂用戶(hù)想要哪方面的信息,并自動(dòng)尋找該信息,然后,通過(guò)語(yǔ)音技術(shù)將信息以語(yǔ)音的形式回放給用戶(hù)。
這就形成了一個(gè)理想的網(wǎng)絡(luò )信息訪(fǎng)問(wèn)模式,電話(huà)網(wǎng)絡(luò )負責語(yǔ)音接入,計算機網(wǎng)絡(luò )負責信息的處理。
開(kāi)辟新應用
語(yǔ)音技術(shù)的應用十分廣泛。
金融方面
采用了語(yǔ)音技術(shù)后,通過(guò)電話(huà),不用人工的干預,就可以進(jìn)行賬戶(hù)余額查詢(xún),完成賬戶(hù)間的轉賬等工作。不僅提高了工作的效率,也改善了服務(wù)的形象。
證券方面
用戶(hù)通過(guò)電話(huà)可以查詢(xún)當前的股市情況,不用再按電話(huà)上的按鍵,而是直接說(shuō)出自己關(guān)心的股票的名稱(chēng),例如“深發(fā)展”,然后計算機就通過(guò)語(yǔ)音合成技術(shù),將結果播報出來(lái)。這樣,用戶(hù)就不用記那些股票號碼了。
電信方面
采用語(yǔ)音技術(shù),在電信業(yè)務(wù)中將產(chǎn)生很多的應用。例如在“114”電話(huà)黃頁(yè)中,目前還要有大量的人工服務(wù),而如果采用語(yǔ)音技術(shù),就可以不用人工服務(wù),讓計算機自動(dòng)接聽(tīng)用戶(hù)的需要,然后回放查詢(xún)的電話(huà)號碼。
旅游方面
用戶(hù)可以通過(guò)電話(huà),自動(dòng)查詢(xún)那些感興趣的景點(diǎn)的語(yǔ)音介紹材料,相當于請了一個(gè)電話(huà)導游。而且出現問(wèn)題時(shí),也可以通過(guò)電話(huà),進(jìn)行各種求助。
尋呼方面
尋呼目前還是通過(guò)尋呼小姐記下用戶(hù)要尋呼的目標號碼,然后將內容輸入到尋呼系統進(jìn)行發(fā)射。采用語(yǔ)音技術(shù)后,可以讓計算機自動(dòng)地進(jìn)行整個(gè)操作過(guò)程。
娛樂(lè )方面
語(yǔ)音技術(shù)在娛樂(lè )方面,也可以激發(fā)出許多的新應用。例如,在通過(guò)電話(huà)進(jìn)行電視MTV點(diǎn)播時(shí),可以避免重復地按電話(huà)上的按鍵,而是直接說(shuō)出哪個(gè)歌手的哪首歌,電視臺就接受語(yǔ)音輸入,而播放相應的曲目。
面臨問(wèn)題
可以看到,將來(lái)成熟的語(yǔ)音技術(shù)將會(huì )帶來(lái)巨大的影響,但目前的語(yǔ)音技術(shù)還存在著(zhù)一些問(wèn)題,而且,單靠語(yǔ)音技術(shù)也是不夠的,要和其他領(lǐng)域的知識進(jìn)行結合,才能產(chǎn)生豐富的應用。
語(yǔ)音識別技術(shù)方面
目前,在漢語(yǔ)方面,語(yǔ)音合成的技術(shù)已經(jīng)達到了實(shí)用階段,但在語(yǔ)音識別方面,還有很多問(wèn)題要解決。
用戶(hù)的獨立性問(wèn)題:就是如何識別不同嗓音和口音的用戶(hù),而無(wú)需通過(guò)軟件訓練來(lái)實(shí)現。
自然語(yǔ)音理解能力:能夠直接了解用戶(hù)的需要,就像人一樣,可以通過(guò)幾個(gè)簡(jiǎn)單縮語(yǔ),就可以明白對方的想法。
插入處理能力:插入能力允許用戶(hù)在系統提示時(shí)中斷系統,但系統仍然能夠知道用戶(hù)的請求。
聲紋識別問(wèn)題:每個(gè)人的聲音都有一定的特點(diǎn),是否也能夠像識別指紋一樣,識別聲紋呢?這樣許多鑒權應用將十分簡(jiǎn)單。
業(yè)務(wù)策略方面
業(yè)務(wù)的應用情況,也取決于業(yè)務(wù)的管理水平,業(yè)務(wù)的營(yíng)銷(xiāo)能力、服務(wù)水平、售后能力等因素,也同樣制約著(zhù)最終業(yè)務(wù)的應用情況。
摘自《中國計算機報》
|