語(yǔ)音識別重在應用
2001/11/14
近兩年CPU的發(fā)展很快,語(yǔ)音識別中的算法也日益精湛,兩者有機地集成在一起后,應用的條件就日趨成熟了。
從語(yǔ)音識別技術(shù)的角度來(lái)看,目前有3個(gè)研究發(fā)展方向,即面向電腦、電話(huà)和手機的應用。電腦的語(yǔ)音錄入應用是指電腦能夠把人所說(shuō)的話(huà)記錄下來(lái),解決文字輸入的問(wèn)題;電話(huà)的語(yǔ)音識別應用是借助通信平臺,實(shí)現語(yǔ)音技術(shù)的更廣泛應用;手機的語(yǔ)音識別應用是嵌入式的語(yǔ)音識別技術(shù),實(shí)現手機、尋呼機在移動(dòng)通信中的語(yǔ)音識別應用。據專(zhuān)業(yè)人士預測,5~10年以后,上述3個(gè)方向將會(huì )發(fā)生相互融合。
IBM公司在電腦的語(yǔ)音錄入方面取得了重大的突破,Philips則在不斷挑戰手機的語(yǔ)音識別的難題。而言豐科技所研究的領(lǐng)域專(zhuān)注在電話(huà)的語(yǔ)音識別和語(yǔ)音合成技術(shù)上。言豐科技希望通過(guò)基于通信平臺的語(yǔ)音識別,能夠得到廣泛的、有實(shí)際價(jià)值的商業(yè)應用。
從語(yǔ)音信號的采集方式來(lái)看,電腦錄入對語(yǔ)音質(zhì)量的要求比較嚴格,而電話(huà)采集的語(yǔ)音質(zhì)量就比較寬容。電腦錄入使用的是非自然語(yǔ)言,而電話(huà)是自然語(yǔ)言。要做好對電話(huà)語(yǔ)音的識別,就需要系統能夠對男女老少,甚至是帶有一些地方口音的各種語(yǔ)言進(jìn)行識別。另外,基于通信平臺的語(yǔ)音識別應用是有一定范圍的,它所涉及的詞匯量是可以控制的,這一點(diǎn)要比電腦語(yǔ)音錄入容易實(shí)現。
在討論了語(yǔ)音識別技術(shù)很多年之后,為什么這個(gè)話(huà)題在最近又大幅度升溫了呢?言豐科技的梁康忠博士說(shuō):“技術(shù)發(fā)展到一定階段時(shí)打破了應用的瓶頸,從而帶來(lái)了應用的進(jìn)步。語(yǔ)音識別是一項難度很大的技術(shù),里面的算法非常復雜,對CPU的要求也非常高,過(guò)去應用的條件不具備。而近兩年CPU的發(fā)展很快,語(yǔ)音識別中的算法也日益精湛,兩者有機地集成在一起后,應用的條件就日趨成熟了。”
語(yǔ)音識別面臨的問(wèn)題
國外已經(jīng)有了不少較大規模的語(yǔ)音識別IVR系統或者呼叫中心的應用,然而在國內,雖然有將語(yǔ)音識別和呼叫中心結合起來(lái)的趨勢,但仍沒(méi)有多少應用。這其中雖然有諸多影響因素,但重要的一點(diǎn)就是漢語(yǔ)語(yǔ)音識別技術(shù)還不夠完善。那么,語(yǔ)音識別技術(shù)要進(jìn)入大規模商用,還要跨越哪些障礙呢?
1.用戶(hù)的獨立性
所謂用戶(hù)的獨立性,就是指語(yǔ)音識別軟件能夠識別有不同嗓音和口音的用戶(hù),而無(wú)需通過(guò)訓練軟件來(lái)使其識別一個(gè)特殊用戶(hù)的聲音。目前的許多語(yǔ)音識別軟件,是基于標準的發(fā)音來(lái)進(jìn)行識別的; 而實(shí)際上,人們說(shuō)話(huà)千差萬(wàn)別,發(fā)音也各不相同,特別對于有口音的語(yǔ)音來(lái)說(shuō),更是對語(yǔ)音識別軟件提出了嚴峻的挑戰。
2.自然語(yǔ)言的能力
有少數復雜的語(yǔ)音識別系統使用提示性對話(huà),而這樣的語(yǔ)音識別系統提示用戶(hù),是用一個(gè)單詞或記號來(lái)回答。根據專(zhuān)門(mén)機構的調查,多數人更喜歡用約定俗成的自然語(yǔ)言,而不喜歡使用提示性對話(huà)。
3.處理插入的能力
插入的能力是指允許用戶(hù)在系統提示時(shí)中斷系統,但系統依然能知道用戶(hù)的請求。
這點(diǎn)對于實(shí)際的應用來(lái)說(shuō)有相當重要的意義。因為人們在說(shuō)話(huà)時(shí),總是在不自覺(jué)地思考,經(jīng)常會(huì )打斷語(yǔ)言的連續性,而插入一些補充性的語(yǔ)言。這樣的語(yǔ)言,在語(yǔ)法上來(lái)說(shuō)經(jīng)常是不正確的,常規的語(yǔ)音識別系統很難處理這些語(yǔ)音。
4.軟件身份驗證的能力
軟件身份驗證的能力是指根據用戶(hù)的嗓音和語(yǔ)言特點(diǎn)來(lái)識別用戶(hù)的能力。這在實(shí)際中是一個(gè)非常有價(jià)值的特點(diǎn),如可用于人事管理中。
語(yǔ)音識別研究現狀
1.語(yǔ)音識別獲得應用
伴隨著(zhù)語(yǔ)音識別技術(shù)的不斷發(fā)展,誕生了全球首套多語(yǔ)種交談式語(yǔ)音識別系統e-talk。這是由言豐科技自主開(kāi)發(fā)的、全球惟一擁有中英混合語(yǔ)言的識別系統,能聽(tīng)、能講普通話(huà)、廣東話(huà)和英語(yǔ),還可以高度適應不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國地區語(yǔ)言差別較大的廣大用戶(hù)。
2.語(yǔ)音合成信息服務(wù)被用戶(hù)接受
語(yǔ)音合成技術(shù)把可視的文本信息轉化為可聽(tīng)的聲音信息,其應用的經(jīng)濟效益和社會(huì )效益前景良好。尤其對漢語(yǔ)語(yǔ)音合成技術(shù)的應用而言,全球有十幾億人使用中文,其市場(chǎng)需求、應用前景和經(jīng)濟效益都是十分有潛力的。
語(yǔ)音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域的智能電話(huà)查詢(xún)系統中展開(kāi)應用,并迅速得到推廣。目前電話(huà)高度普及,如果通過(guò)最便捷的電話(huà)方式就能查詢(xún)到所需信息,無(wú)疑將給人們的日常生活帶來(lái)極大方便。漢語(yǔ)語(yǔ)音合成技術(shù)應用到聲訊服務(wù)領(lǐng)域內,將對現有的電話(huà)查詢(xún)系統產(chǎn)生革命性的影響。
隨著(zhù)互聯(lián)網(wǎng)的出現和推廣,在技術(shù)上,語(yǔ)音與互聯(lián)網(wǎng)已能夠成功地結合。用戶(hù)可以通過(guò)電話(huà),方便地發(fā)送電子郵件和類(lèi)似的留言信息,不僅具有傳統的語(yǔ)音信箱功能,還可以將用戶(hù)語(yǔ)音以IP的方式廉價(jià)地發(fā)送到全球任何一個(gè)電腦或電話(huà)終端上,大大降低了信息交流的成本。
3.面向對象的語(yǔ)音編碼技術(shù)獲得突破
長(cháng)期以來(lái),在通信網(wǎng)的發(fā)展中,提高信息傳輸效率是一個(gè)關(guān)鍵問(wèn)題。目前已有兩個(gè)途徑可以解決這一問(wèn)題:一是研究新的調制方法與技術(shù),來(lái)提高信道傳輸信息的比特率,指標是每赫茲帶寬所傳送的比特數;二是壓縮信源編碼的比特率,例如標準PCM編碼,對3.4kHz頻帶信號需用64Kbps編碼比特率傳送,而壓縮這一比特率顯然可以提高信道傳送的話(huà)路數。實(shí)際上,壓縮語(yǔ)音編碼比特率與話(huà)音存儲、語(yǔ)音識別及語(yǔ)音合成等技術(shù)都直接相關(guān)。
4.口語(yǔ)機器翻譯受到重視
口語(yǔ)翻譯的一個(gè)重要目的就是幫助聾啞人與正常人交流。首先,聾啞人要戴上一副特制的手套,計算機根據他打出的手語(yǔ)進(jìn)行識別,然后,通過(guò)語(yǔ)音合成系統就可以把圖像信息翻譯成語(yǔ)言信息。同時(shí),系統還能夠完成將正常人的語(yǔ)言翻譯成聾啞人的手語(yǔ)。將正常人說(shuō)的話(huà)鍵入計算機,經(jīng)程序分析處理之后,翻譯成有表情、有動(dòng)作的三維圖像,就可最終達到聾啞人與正常人之間通過(guò)翻譯機進(jìn)行交流的目的。口語(yǔ)翻譯的研究在其他很多方面都有重要價(jià)值,如用手勢控制計算機,甚至用手勢導航等。
語(yǔ)音識別技術(shù)進(jìn)入商用
語(yǔ)音技術(shù)開(kāi)辟了一個(gè)巨大的應用市場(chǎng),目前的語(yǔ)音技術(shù)應用的程度如何呢?
1.技術(shù)成熟
在技術(shù)方面,英語(yǔ)的語(yǔ)音技術(shù)比漢語(yǔ)的語(yǔ)音技術(shù)的商用程度更廣,實(shí)用程度更好。在漢語(yǔ)的語(yǔ)音技術(shù)方面,國內的語(yǔ)音合成技術(shù)比較成熟,已經(jīng)達到了商用的標準; 在語(yǔ)音識別方面,已經(jīng)有一些產(chǎn)品開(kāi)始投入商用,如言豐科技的e-talk產(chǎn)品。
2.廠(chǎng)家眾多
在語(yǔ)音識別方面,有國外的IBM、Philips、Nuance等公司;國內的有香港的InfoTalk、捷通等。在語(yǔ)音合成方面,能夠提供產(chǎn)品的公司就十分多了,有的產(chǎn)品是用軟件來(lái)實(shí)現,有的專(zhuān)門(mén)設計了硬件芯片。
3.促進(jìn)網(wǎng)絡(luò )的融合
語(yǔ)音技術(shù)的發(fā)展,帶動(dòng)了網(wǎng)絡(luò )的融合過(guò)程。目前,世界上的兩大通信網(wǎng)絡(luò )是電信網(wǎng)和計算機網(wǎng),電信網(wǎng)是以語(yǔ)音信號為處理對象,計算機網(wǎng)則是以數據信號為其處理內容。語(yǔ)音技術(shù)為兩個(gè)網(wǎng)絡(luò )的結合,奠定了技術(shù)基礎。
4.語(yǔ)音接入通過(guò)PSTN
目前,人們進(jìn)行信息交流的主要方式還是通過(guò)電話(huà)網(wǎng)。用戶(hù)可以通過(guò)撥打一個(gè)電話(huà)號碼,接入到信息訪(fǎng)問(wèn)中心。
語(yǔ)音技術(shù)商機無(wú)限
1.金融
采用了語(yǔ)音技術(shù)后,通過(guò)電話(huà),不用人工的干預,就可以進(jìn)行賬戶(hù)余額查詢(xún),完成賬戶(hù)間的轉賬等工作。不僅提高了工作的效率,也改善了服務(wù)商的形象。
2.證券
用戶(hù)通過(guò)電話(huà)可以查詢(xún)當前的股市情況,不用再按電話(huà)上的按鍵,而是直接說(shuō)出自己關(guān)心的股票的名稱(chēng),計算機就通過(guò)語(yǔ)音合成技術(shù),將結果播報出來(lái)。
3.電信和尋呼
采用語(yǔ)音技術(shù),在電信業(yè)務(wù)中將產(chǎn)生很多的應用。例如在“114”電話(huà)黃頁(yè)中,目前還要有大量的人工服務(wù); 而如果采用語(yǔ)音技術(shù),就可以不用人工服務(wù),讓計算機自動(dòng)接聽(tīng)用戶(hù)的需要,然后回放查詢(xún)的電話(huà)號碼。尋呼目前還是通過(guò)尋呼小姐記下用戶(hù)要尋呼的目標號碼,然后將內容輸入到尋呼系統進(jìn)行發(fā)射; 采用語(yǔ)音技術(shù)后,可以讓計算機自動(dòng)地進(jìn)行整個(gè)操作過(guò)程。
4.旅游
用戶(hù)可以通過(guò)電話(huà),自動(dòng)查詢(xún)那些感興趣的景點(diǎn)的語(yǔ)音介紹材料,相當于請了一個(gè)電話(huà)導游。當出現問(wèn)題時(shí),也可以通過(guò)電話(huà),進(jìn)行各種求助。
5.娛樂(lè )
語(yǔ)音技術(shù)在娛樂(lè )方面,也可以激發(fā)出許多的新應用。例如,在通過(guò)電話(huà)進(jìn)行電視MTV點(diǎn)播時(shí),可以避免重復地按電話(huà)上的按鍵,而是直接說(shuō)出是哪個(gè)歌手的哪首歌,電視臺就通過(guò)接收語(yǔ)音輸入,播放相應的曲目。
技術(shù)為本,應用為先。言豐科技在研發(fā)語(yǔ)音識別技術(shù)產(chǎn)品時(shí),就希望能夠通過(guò)自然的語(yǔ)言交流,實(shí)現人機交互式的對話(huà)形式,使電腦能理解我們的語(yǔ)言,并按照我們的指示去工作。因為這一目標的實(shí)現將會(huì )給人類(lèi)的工作和生活帶來(lái)質(zhì)的變化,同時(shí)將產(chǎn)生巨大的商業(yè)價(jià)值。因此,目前基于通信平臺的語(yǔ)音識別技術(shù)的商業(yè)應用已被眾多的企業(yè)所關(guān)注。有專(zhuān)家預測,隨著(zhù)技術(shù)的快速發(fā)展,再過(guò)10~20年的時(shí)間,我們將可以做到非常自然的人機交互式對話(huà)。
IBM供稿 CTI論壇編輯
ViaVoice語(yǔ)音上網(wǎng)新概念 2001-11-14 |
IBM ViaVoice更方便更健康 2001-11-14 |
IBM ViaVoice Telephony——完善的中文電話(huà)語(yǔ)音技術(shù) 2001-11-14 |
CRM中的IBM語(yǔ)音技術(shù) 2001-10-10 |
IBM Viavoice:掛在嘴邊的輸入法 2001-10-10 |