不僅是技術(shù)—語(yǔ)音門(mén)戶(hù)專(zhuān)題系列(一)
核心技術(shù)與流程設計 語(yǔ)音門(mén)戶(hù)的兩扇門(mén)
郭連頗 2002/01/30
語(yǔ)音識別是關(guān)鍵
語(yǔ)音識別技術(shù)是語(yǔ)音門(mén)戶(hù)的核心技術(shù),掌握好這項技術(shù),是語(yǔ)音門(mén)戶(hù)獲得成功的第一步。
1.識別引擎
語(yǔ)音識別引擎是語(yǔ)音門(mén)戶(hù)的核心。語(yǔ)音識別引擎不僅要聽(tīng)懂用戶(hù)的語(yǔ)音,還要完成語(yǔ)言理解、語(yǔ)法分析、對話(huà)(包括人機對話(huà)和流程)控制和語(yǔ)音輸出等工作。識別引擎可以識別不同的語(yǔ)言,但需要不同的語(yǔ)音庫來(lái)支持。例如,在同一個(gè)引擎下,外掛中文或英文語(yǔ)音庫就可以識別中文或英文語(yǔ)音。
語(yǔ)音識別技術(shù)的成熟和商品化,依賴(lài)于軟件算法的進(jìn)步,更依賴(lài)于硬件性能的提高。20世紀90年代末,計算機硬件性能的飛速提高和價(jià)格的急劇降低,使語(yǔ)音識別技術(shù)從實(shí)驗室走向了市場(chǎng)。
識別率是語(yǔ)音識別引擎成功與否的關(guān)鍵,為了在電信網(wǎng)絡(luò )上提高識別率,要有針對性地處理以下問(wèn)題:
(1) 回聲:在電信系統中,語(yǔ)音傳輸過(guò)程中的回聲將極大地影響識別率。要將回聲抑制掉,必須在硬件和軟件上對信號進(jìn)行處理。
(2) 噪聲:包括用戶(hù)環(huán)境噪聲和系統中的電子噪聲,前者需要語(yǔ)音識別引擎軟件來(lái)處理,后者一般由硬件處理。
(3) 語(yǔ)音中斷:用戶(hù)不必聽(tīng)完系統播報,可以隨時(shí)說(shuō)出新的服務(wù)需求,系統將中斷播報,并為用戶(hù)提供新的服務(wù)。目前,主流的語(yǔ)音卡都提供了語(yǔ)音中斷功能。為達到更好的效果,識別引擎還必須提供專(zhuān)門(mén)的接口,以保證兩者能夠更好地結合。
2.自然語(yǔ)言處理
只有提供自然語(yǔ)言識別功能,語(yǔ)音門(mén)戶(hù)的用戶(hù)才能享受到親切、快捷的服務(wù)。在一些復雜應用中(如查詢(xún)航班/火車(chē)時(shí)刻表,股票買(mǎi)賣(mài)等),采用自然語(yǔ)言對話(huà),才能發(fā)揮出其替代按鍵的優(yōu)勢。除了識別引擎要具備自然語(yǔ)言理解能力外,在應用開(kāi)發(fā)中也有大量的工作要做。
自然語(yǔ)音識別技術(shù)使計算機能夠聽(tīng)懂和理解人的語(yǔ)言,用戶(hù)不必用固定的語(yǔ)序講話(huà)。系統能夠幫助用戶(hù)明確其需求,并提供準確的服務(wù)。系統應該能夠聽(tīng)懂自然的語(yǔ)言,并到數據庫查詢(xún)出信息,再播報給用戶(hù)。對于一些不太規范的語(yǔ)句,系統同樣應該聽(tīng)懂,并逐步引導用戶(hù),以便向用戶(hù)提供服務(wù),這才是真正的自然語(yǔ)言識別。目前,有一些承諾提供自然語(yǔ)言識別的系統,往往要求用戶(hù)一次說(shuō)清全部需求,這不是真正的自然語(yǔ)言識別,在現實(shí)應用中,也是無(wú)法使用的。
3.TTS
TTS是語(yǔ)音門(mén)戶(hù)中的一個(gè)重要技術(shù),它提供了系統向用戶(hù)輸出的語(yǔ)音界面。
與拼音文字不同,中文的“詞”由一個(gè)或多個(gè)漢字組合而成,如何斷詞并正確地發(fā)音,需要有一個(gè)非常大的、及時(shí)更新的詞庫來(lái)支持,還需要對上下文進(jìn)行判斷。因此,中文TTS的開(kāi)發(fā)難度要比英文大得多。
經(jīng)過(guò)長(cháng)期研究,中文TTS取得了非常大的進(jìn)步,也有了一些專(zhuān)門(mén)支持電信級應用的系統。在現有的技術(shù)水平下,TTS能夠滿(mǎn)足一般的閱讀要求。但讀時(shí)事新聞、電子郵件(尤其是包含許多縮略語(yǔ)和中外文混合的文本)和文學(xué)作品時(shí),其效果還不能令人滿(mǎn)意。
要判斷TTS的水平,不要用開(kāi)發(fā)商提供的樣本,也不要讓開(kāi)發(fā)商代勞輸入漢字,建議用戶(hù)隨意摘錄網(wǎng)上的新聞,直接粘貼到TTS文本窗口中,然后直接進(jìn)行測試。TTS是給普通用戶(hù)聽(tīng)的,不是給專(zhuān)家聽(tīng)的,其直觀(guān)的效果最重要。
流程是人性化服務(wù)的保證
流程設計是質(zhì)量控制的核心,即使語(yǔ)音識別的準確率再高,也不可能達到100%。因此,設計一個(gè)好的流程來(lái)幫助和引導用戶(hù),并克服語(yǔ)音識別的新問(wèn)題,是提高語(yǔ)音門(mén)戶(hù)服務(wù)質(zhì)量的核心。同時(shí),一個(gè)好的流程,也是為運營(yíng)商創(chuàng )造價(jià)值的基礎。
1.有別于IVR的流程
受電話(huà)按鍵的束縛,傳統的按鍵信息服務(wù)系統(IVR)必須把各種服務(wù)分成多層,或者開(kāi)設多個(gè)電話(huà)號碼。
(1)新的“層”概念
由于引入了自然語(yǔ)言識別技術(shù),在語(yǔ)音門(mén)戶(hù)中,“層”被授予了新的內容。它不是一個(gè)機械的分類(lèi)標準,而是幫助用戶(hù)的導航界面。它將引導新用戶(hù)一步步接近目標,并幫助老用戶(hù)直接達到目標。語(yǔ)音門(mén)戶(hù)可以在原有結構的技術(shù)上引入語(yǔ)音導航,也可以打破原有結構,建立新的、更適用于語(yǔ)音導航的流程。
(2)實(shí)現任意跳轉
傳統的IVR系統中,如果用戶(hù)通過(guò)多次按鍵,進(jìn)入了某項服務(wù),就很難訪(fǎng)問(wèn)另一個(gè)服務(wù)。這時(shí),用戶(hù)要么必須根據系統提示,逐層返回、逐層進(jìn)入;要么已經(jīng)在系統中迷路,無(wú)法進(jìn)入其他路徑,只能掛斷電話(huà),再次撥入。而語(yǔ)音導航能夠聽(tīng)懂用戶(hù)的需求,可直接跳入另一欄目或服務(wù),不必逐層返回和進(jìn)入。
2.語(yǔ)言學(xué)處理
語(yǔ)言是“活”的,因此,語(yǔ)音門(mén)戶(hù)也必須能夠靈活地處理用戶(hù)需求。
(1)多音詞和同義詞:系統必須能夠自動(dòng)處理多音詞/字和同義詞,才能滿(mǎn)足不同的客戶(hù)需求,保證識別率和服務(wù)品質(zhì)。
(2)無(wú)義詞:系統必須能夠自動(dòng)過(guò)濾沒(méi)有意義的詞/字,減少對用戶(hù)的約束,提高人機對話(huà)的自然度。
(3)口音適應:中國地域廣大,人口眾多,方言和口音十分復雜。因此,除為特定區域的用戶(hù)提供專(zhuān)用的語(yǔ)言引擎外,普通話(huà)引擎要適應帶有一定口音的用戶(hù)。系統集成商還需要根據使用情況對系統進(jìn)行調整,建立自學(xué)系統,不斷提高系統的識別率。
3.人性化提示和錯誤處理
(1)不同的提示和幫助:要根據不同的情景提供提示和幫助界面,如,有時(shí)需要嚴肅,有時(shí)需要活潑。
(2)人性化引導:要提供人性化的提示和引導,才能發(fā)揮語(yǔ)音導航和服務(wù)的優(yōu)勢。
(3)錯誤處理:在聽(tīng)覺(jué)上,機器不如真實(shí)的人,不可能有100%的識別率。如何處理錯誤,讓用戶(hù)理解并愉快地接受,就需要制定錯誤處理原則并靈活地運用技巧。基本的系統應該對用戶(hù)沒(méi)有講話(huà)、用戶(hù)講錯了話(huà)、系統只聽(tīng)懂一部分等現象具有判斷能力。
語(yǔ)音門(mén)戶(hù)的弱點(diǎn)
語(yǔ)音門(mén)戶(hù)不是萬(wàn)能的,它在一段時(shí)間內沒(méi)有得到大面積的普及和推廣,是由于其自身尚存在著(zhù)一些弱點(diǎn),其中,主要是信息量有限的問(wèn)題。
語(yǔ)音門(mén)戶(hù)主要提供語(yǔ)音服務(wù),但聽(tīng)覺(jué)能夠接收的信息量是有限的,遠遠小于視覺(jué)能夠提供的信息量。有些語(yǔ)音服務(wù),如讀E-mail、語(yǔ)音上網(wǎng)等,僅僅是應急時(shí)的需要,不能替代傳統的電子郵件和瀏覽器。同時(shí),并不是所有的信息發(fā)布和服務(wù)都適用于語(yǔ)音門(mén)戶(hù),那些信息量大、更適合視覺(jué)瀏覽的信息就不適用于語(yǔ)音門(mén)戶(hù)。
計算機世界報 2002/01/30
語(yǔ)音合成——燦爛的前景 巨大的商機 2002-01-30 |
語(yǔ)音合成技術(shù)及國內外發(fā)展現狀 2002-01-30 |
Evoice有聲電子郵件系統 2002-01-30 |
語(yǔ)音合成系統的關(guān)鍵技術(shù) 2002-01-30 |
語(yǔ)音合成技術(shù)應用實(shí)例 2002-01-30 |