首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>>天朗語(yǔ)音

天朗分布式語(yǔ)音識別系統產(chǎn)品白皮書(shū)

2003/09/27

一.前言

  語(yǔ)音識別是指從語(yǔ)音到文本的轉換,即讓計算機能夠把人發(fā)出的有意義的話(huà)音變成書(shū)面語(yǔ)言。通俗地說(shuō)就是讓機器能夠聽(tīng)懂人說(shuō)的話(huà)。所謂聽(tīng)懂,有兩層意思,一是指把用戶(hù)所說(shuō)的話(huà)逐詞逐句轉換成文本;二是指正確理解語(yǔ)音中所包含的要求,而不要求所有詞都轉換正確。

  語(yǔ)音識別技術(shù)(ASR)是以語(yǔ)音為研究對象,涉及到生理學(xué)、心理學(xué)、語(yǔ)言學(xué)、計算機科學(xué)以及信號處理等諸多領(lǐng)域,甚至還涉及到人的體態(tài)語(yǔ)言(如人在說(shuō)話(huà)時(shí)的表情、手勢等行為動(dòng)作可幫助對方理解),目前常見(jiàn)的識別技術(shù)一般采用隱馬爾可夫模型HMM(Hidden Markov Model)來(lái)建模。它的基本原理是系統首先對大量的真實(shí)世界中的人的語(yǔ)音進(jìn)行分析,并建立模型。在識別時(shí),系統同樣先對輸入的語(yǔ)音進(jìn)行分析,提取特征,然后通過(guò)一定的算法并使用已建立的模型,從而識別出用戶(hù)所說(shuō)的話(huà)。

  隨著(zhù)語(yǔ)音識別技術(shù)的逐漸成熟,語(yǔ)音識別技術(shù)開(kāi)始得到廣泛的應用,涉及日常生活的各個(gè)方面如電信、金融、新聞、公共事業(yè)等各個(gè)行業(yè),通過(guò)采用語(yǔ)音識別技術(shù),可以極大的簡(jiǎn)化這些領(lǐng)域的業(yè)務(wù)流程以及操作;提高系統的應用效率。

二、語(yǔ)音識別的原理

2.1 語(yǔ)音識別的基本原理
  圖1給出了一個(gè)語(yǔ)音識別系統的原理圖。


  從圖1中看出,輸入的語(yǔ)音首先要通過(guò)端點(diǎn)檢測(也稱(chēng)靜音檢測模塊),檢測得到輸入語(yǔ)音的有效語(yǔ)音數據部分(也就是去除了靜音數據、噪聲數據等);然后進(jìn)入特征提取模塊,這里需要提取語(yǔ)音信號最本質(zhì)的信息,一般采用MFCC特征,它是采用復雜的數字信號處理技術(shù)來(lái)完成的;語(yǔ)音信號的特征信息被送入識別引擎,在聲學(xué)模型和語(yǔ)言模型的指導下進(jìn)行識別,最終得到識別結果,這里常常需要采用非常復雜的搜索算法,簡(jiǎn)單地說(shuō),它需要根據語(yǔ)言模型考慮各種詞的組合(句子)及其發(fā)生概率,對于每一種可能的句子,都給出一個(gè)得分,選擇得分最大者作為識別結果。但是由于可能的搜索空間非常大,所以需要利用剪枝技術(shù),有效地去除大量冗余空間,加快搜索速度,滿(mǎn)足實(shí)際系統的要求。

2. 2 基于語(yǔ)法的識別引擎
  在語(yǔ)音識別中,語(yǔ)言模型是用來(lái)指導引擎進(jìn)行語(yǔ)音識別的,它限定了一個(gè)識別引擎所能表達的語(yǔ)句類(lèi)型。在我們常用的圖搜索引擎中,語(yǔ)言模型是通過(guò)語(yǔ)法來(lái)表示的,語(yǔ)法是由一系列表示某個(gè)領(lǐng)域的語(yǔ)言表達方式的規則組成的(語(yǔ)法的具體書(shū)寫(xiě)規則見(jiàn)引擎使用說(shuō)明書(shū))。這些規則會(huì )被被轉換成詞圖的形式然后用來(lái)指導語(yǔ)音的識別。所謂的詞圖是指由詞作為節點(diǎn)的一個(gè)圖,從該圖的開(kāi)始節點(diǎn)到末尾節點(diǎn)的任一條路徑都是一個(gè)有效合法的句子。圖2給出了一個(gè)簡(jiǎn)單的詞圖。


  對于很多領(lǐng)域的語(yǔ)音識別來(lái)說(shuō),如自動(dòng)總機、火車(chē)定票系統、股票查詢(xún)系統等,他們具有一個(gè)共同的特點(diǎn):所用的句型典型,且句型數有限,可以用規則來(lái)描述。對于這樣的系統,采用語(yǔ)法的方式來(lái)指導其語(yǔ)音識別,一方面可以得到很高的識別率,另一方面,又能達到較快的識別速度,滿(mǎn)足實(shí)際系統的需要。因此,基于語(yǔ)法方式的語(yǔ)音識別技術(shù)得到廣泛應用。本文中我們采用的核心識別引擎也是采用語(yǔ)法的方式。

三、天朗分布式語(yǔ)音識別系統簡(jiǎn)介

  天朗分布式語(yǔ)音識別引擎是天朗公司針對電信級、大企業(yè)級應用特點(diǎn)開(kāi)發(fā)出來(lái)的一個(gè)基于多機的分布式語(yǔ)音識別引擎,它通過(guò)局域網(wǎng)連接多個(gè)識別服務(wù)器,來(lái)同時(shí)完成大量的語(yǔ)音識別任務(wù),極大的拓展了單機版語(yǔ)音識別引擎在識別任務(wù)上的限制,可以同時(shí)支持幾百到幾千個(gè)語(yǔ)音識別任務(wù)并發(fā)執行,從而滿(mǎn)足電信級這樣的具有大識別任務(wù)量的應用。系統的主要功能有:

·支持非特定人、大詞匯量、連續語(yǔ)音識別,能夠達到高的識別準確率;
·支持多語(yǔ)種識別;
·能夠提供識別結果的置信度信息;
·多臺語(yǔ)音識別服務(wù)器并行工作,通過(guò)局域網(wǎng)連接和傳送數據;
·有一個(gè)資源管理服務(wù)器(或多個(gè),作備份),用來(lái)管理所有的服務(wù)器,并負責負載平衡;
·有一個(gè)License服務(wù)器,用來(lái)進(jìn)行License管理;
·任何一個(gè)服務(wù)器可以動(dòng)態(tài)地啟動(dòng)和停止,而不影響系統的運行;
·系統可以同時(shí)啟動(dòng)任意多個(gè)服務(wù)器(或線(xiàn)程數),但同時(shí)最多只能用License所規定的線(xiàn)數;
·系統可以同時(shí)啟動(dòng)任意多個(gè)服務(wù)器以做備份,防止因為某些服務(wù)器當機而對系統造成影響;
·對應用層的一致性,即對應用層開(kāi)發(fā)來(lái)說(shuō),和開(kāi)發(fā)單機版的程序一樣(或略有不同),用戶(hù)不需考慮后邊的識別引擎是單機和多機版。
·多平臺、多操作系統可混合組成系統,如客戶(hù)端可能是Linux版,但服務(wù)端是Windows版;
四.天朗分布式語(yǔ)音識別系統架構原理和使用方法

4.1系統整體架構和模塊功能介紹
  下圖展示天朗分布式語(yǔ)音識別系統的架構:
  整個(gè)系統由識別服務(wù)器、資源管理器、語(yǔ)法服務(wù)器(可選)、License管理器、客戶(hù)端API以及連接這些服務(wù)器的局域網(wǎng)組成,除了語(yǔ)法服務(wù)器是可選之外,其他部分都是必須的,但是識別服務(wù)器、資源管理器已經(jīng)客戶(hù)端的個(gè)數是可變的,具體的多少和系統的大小和任務(wù)量有關(guān)。語(yǔ)法服務(wù)器在許多情況下可能是不需要的,因此,我們的系統把其設計成可選的,如果需要,其可以動(dòng)態(tài)加入系統。

  為了方便客戶(hù)使用,我們提供了一套客戶(hù)端API給用戶(hù),用戶(hù)在使用本系統時(shí),可以在其應用程序中調用我們的API來(lái)調用我們的識別系統。


4.2 天朗分布式語(yǔ)音識別系統工作原理
  為了更好的應用天朗分布式語(yǔ)音識別系統來(lái)開(kāi)發(fā)應用系統,幫助開(kāi)發(fā)人員理解天朗分布式語(yǔ)音識別系統的的工作原理,下面以一次語(yǔ)音識別的過(guò)程來(lái)解釋天朗分布式語(yǔ)音識別系統的工作原理。圖4給出了系統一次語(yǔ)音識別的工作原理。

  應用程序通過(guò)DSR的API函數來(lái)調用語(yǔ)音識別功能,一般來(lái)說(shuō)過(guò)程如下:

  1、 當有電話(huà)到達時(shí),應用程序負責接起電話(huà),然后播放一個(gè)歡迎的提示音,提示用戶(hù)說(shuō)出要做的動(dòng)作(如查詢(xún)人名、股票信息等),并開(kāi)始等待用戶(hù)說(shuō)話(huà);
  2、 應用程序啟動(dòng)錄音程序開(kāi)始錄音,同時(shí)應用程序會(huì )通過(guò)DSR API向天朗分布式語(yǔ)音識別系統(下稱(chēng)"識別系統")請求一個(gè)識別資源(即一個(gè)識別會(huì )話(huà)session);
  3、 識別系統的資源管理器會(huì )根據系統的負載情況,分配一個(gè)最空閑的識別服務(wù)器的一個(gè)空閑會(huì )話(huà)給該次任務(wù)。
  4、 應用程序獲得該識別會(huì )話(huà)控制權后,根據目前系統的任務(wù),通過(guò)API通知對應的識別引擎加載相應語(yǔ)法,語(yǔ)法的來(lái)源有三種,具體的請參看下面的說(shuō)明。
  5、 應用程序開(kāi)始通過(guò)API函數把錄取的語(yǔ)音發(fā)送給該會(huì )話(huà),該會(huì )話(huà)會(huì )根據系統的模型和加載的語(yǔ)法,對送入的語(yǔ)音進(jìn)行識別;
  6、 如果有識別結果,系統會(huì )通過(guò)回調函數來(lái)通知應用程序,應用程序這時(shí)可以通過(guò)DSR API來(lái)得到識別結果。
  7、 應用程序卸載加載的語(yǔ)法;
  8、 應用程序斷開(kāi)該會(huì )話(huà)連接;
  9、 應用程序釋放會(huì )話(huà)。
  10、 這時(shí)應用程序應該根據識別結果做相應的動(dòng)作,如繼續播放提示音,提示用戶(hù)繼續提供信息或做其他的動(dòng)作。如goto 2。


4.3 識別結果
  語(yǔ)音識別完成后,天朗DSR識別引擎會(huì )通過(guò)回調函數通知應用程序有識別結果,應用程序可以通過(guò)API函數取得識別結果,并根據結果相應作出響應。天朗分布式識別引擎可以提供多個(gè)識別候選供用戶(hù)選擇。同時(shí),系統還會(huì )給出每個(gè)候選句子的置信度,所有的識別候選按置信度由高到低排序。用戶(hù)可以設定引擎返回的結果最大數目,系統會(huì )返回用戶(hù)設定的候選的個(gè)數。

  需要注意的是:引擎返回的句子的個(gè)數可能沒(méi)有用戶(hù)設定的數目多,另外,設定較大數目的返回結果候選會(huì )影響系統的效率。

4.4引擎的三種調用方式
  對于基于對話(huà)方式的語(yǔ)音識別,應用程序對DSR的API函數調用的時(shí)間和方式不同會(huì )對整個(gè)系統的穩定性和效率產(chǎn)生很大影響。


  下面以電信級應用來(lái)說(shuō)明不同的調用方式的差別。

  一般來(lái)說(shuō),一個(gè)基于電話(huà)語(yǔ)音識別的對話(huà)系統(如圖5所示),一般由識別服務(wù)器、應用服務(wù)器、電話(huà)交換機、智能交換機設備、 IVR設備等設備組成,電話(huà)交換機與成千上萬(wàn)個(gè)電話(huà)終端通過(guò)各種交換設備相連接,電信應用軟件在這些硬件的支持下提供各種服務(wù),如:1860查詢(xún)服務(wù)等。此時(shí),電信應用開(kāi)通的線(xiàn)數視系統的業(yè)務(wù)需求而定,一般總是大大小于終端連接的總數。系統連接數與終端連接數常常是1:1000或者1:10000的級別。"一路對話(huà)"是指物理上的一條線(xiàn)路,對于上述的電信應用,電信開(kāi)通的每一條線(xiàn)路都是一路對話(huà)。

  "一次對話(huà)"是指用戶(hù)的一次電話(huà)從打入到掛機之間一個(gè)交互服務(wù)過(guò)程稱(chēng)。比如:用戶(hù)撥打1860進(jìn)行話(huà)費查詢(xún),在用戶(hù)撥通電話(huà)至用戶(hù)掛機這個(gè)過(guò)程中用戶(hù)和應用程序交互的整個(gè)過(guò)程稱(chēng)作一次對話(huà)。

  "一路會(huì )話(huà)"這里是指語(yǔ)音識別中,一次識別從分配識別資源開(kāi)始到釋放這個(gè)資源的整個(gè)過(guò)程。
對于語(yǔ)音識別的會(huì )話(huà),可以對一路對話(huà)分配一個(gè)會(huì )話(huà),也可以對一次對話(huà)分配,或者對一次對話(huà)的一句話(huà)識別進(jìn)行分配,不同的分配方式會(huì )得到不同的效果。

  第一種:直接為每一路對話(huà)分配一個(gè)會(huì )話(huà),用戶(hù)應用程序在程序一開(kāi)始就為每一路對話(huà)建立到引擎的連接,然后,該路對話(huà)就會(huì )一直保持該會(huì )話(huà),再也不釋放該會(huì )話(huà),直到程序結束。這種方式編程簡(jiǎn)單,但是,在系統的穩定性和有效性方面都是最差的。因為每一路對話(huà)都一直使用,且一直獨占該會(huì )話(huà),一旦該會(huì )話(huà)出現問(wèn)題,則該路對話(huà)就永遠不能用了,除非重啟程序。另外,由于每路對話(huà)都獨占一個(gè)會(huì )話(huà),因此即使該路對話(huà)沒(méi)有在使用引擎,其獨占的會(huì )話(huà)也不能被別的對話(huà)使用。降低了系統的效率。

  第二種:在一次對話(huà)開(kāi)始時(shí)就建立到引擎的連接,然后該對話(huà)一直獨占該會(huì )話(huà),直到該次對話(huà)結束。很顯然,這種方式和第一種方式比起來(lái),在穩定性和效率方面都有很大提高。主要是這種方式不再一直獨占一個(gè)會(huì )話(huà),會(huì )話(huà)可以在多路對話(huà)之間共享,即使有一路會(huì )話(huà)出現問(wèn)題,只會(huì )影響一次對話(huà)的一次工作,而不會(huì )影響本路對話(huà)以及其他路對話(huà)的以后的識別。

  盡管第二種已比較優(yōu)化,但它的一個(gè)缺點(diǎn)就是仍然會(huì )影響一次對話(huà)的進(jìn)行。

  第三種:在每一次識別開(kāi)始時(shí)建立連接,識別結束后立刻釋放(這種方式與第二種不同,是因為在一次對話(huà)過(guò)程中會(huì )存在多輪的識別過(guò)程)。這種方式的優(yōu)點(diǎn)除了第二種的優(yōu)點(diǎn)外,他還克服了它的缺點(diǎn)。因為,此時(shí)一個(gè)會(huì )話(huà)的失敗只會(huì )影響該路對話(huà)的一句的識別,通過(guò)編程我們可以在發(fā)現一個(gè)會(huì )話(huà)失敗后,再申請另一個(gè)會(huì )話(huà),這時(shí)最多讓用戶(hù)重復一邊剛才的話(huà)外,對這次對話(huà)沒(méi)有影響。

  另外,采用三種的哪一種方式還和應用的不同有關(guān),如果應用是類(lèi)似于股票查詢(xún)這樣的系統,每個(gè)識別服務(wù)器都完成相同的功能,這時(shí)采用第三種方式比較合適。而對于某些應用系統如需要動(dòng)態(tài)改變語(yǔ)法的,則最好采用第一、二種方法。如果改變的語(yǔ)法只在一次對話(huà)中有效,可以采用第二種,如果改變的語(yǔ)法一直持續有效的話(huà),第一種可能更適合。

4.5 語(yǔ)法
  語(yǔ)法是用來(lái)指導識別引擎進(jìn)行語(yǔ)音識別的,它是由一系列語(yǔ)法規則組成的一個(gè)有限圖, 它用來(lái)限制系統可以識別的句型和詞匯,減少系統識別的語(yǔ)法空間,極大的減少系統的搜索時(shí)間,增加了系統的識別率。

  在天朗分布式識別系統中,語(yǔ)法的使用有兩種形式:

  1. 靜態(tài)語(yǔ)法,對于目前許多基于語(yǔ)音識別的應用系統,大多數用到的語(yǔ)法都是固定的,在系統運行中,不需要對語(yǔ)法進(jìn)行更改(如1860系統,火車(chē)訂票系統等),對于這種應用,最方便的方法就是在系統啟動(dòng)時(shí)就把用到的語(yǔ)法加載進(jìn)系統,用到時(shí)激活(enable)就行了。這樣可以節約大量的時(shí)間,提高系統的效率。為了方便用戶(hù)的使用,天朗分布式識別引擎提供了靜態(tài)語(yǔ)法功能,用戶(hù)只要通過(guò)對識別服務(wù)器的預加載語(yǔ)法進(jìn)行配置,系統會(huì )在啟動(dòng)時(shí)自動(dòng)把這些語(yǔ)法加載到系統中供系統使用。在這種情況下,整個(gè)系統可以不需要語(yǔ)法服務(wù)器,從而節約投資成本。要注意的是,靜態(tài)語(yǔ)法必須是已編譯過(guò)的語(yǔ)法格式。

  2. 動(dòng)態(tài)語(yǔ)法,所謂的動(dòng)態(tài)語(yǔ)法是指在運行前并不知道需要加載那些語(yǔ)法,或者在運行時(shí),需要對語(yǔ)法進(jìn)行編譯或修改。動(dòng)態(tài)語(yǔ)法常用在比較大型的復雜的系統中。對于動(dòng)態(tài)語(yǔ)法,系統必須要有語(yǔ)法服務(wù)器來(lái)支持,動(dòng)態(tài)語(yǔ)法可以是文本格式,也可以是編譯后的格式,系統會(huì )根據傳入的語(yǔ)法的格式自動(dòng)進(jìn)行選擇是否進(jìn)行編譯。

  在天朗分布式識別引擎中,語(yǔ)法是通過(guò)一個(gè)key來(lái)唯一指定的,這個(gè)key由用戶(hù)自己指定,且必須保證不同的語(yǔ)法的key的唯一性。不同的語(yǔ)法采用相同的key可能會(huì )導致語(yǔ)法的相互覆蓋。

  系統可以同時(shí)支持靜態(tài)語(yǔ)法和動(dòng)態(tài)語(yǔ)法。在加載一個(gè)語(yǔ)法時(shí),系統首先會(huì )通知對應的識別服務(wù)器去加載一個(gè)指定的語(yǔ)法,如果該語(yǔ)法已加載,則僅返回語(yǔ)法的句柄以供以后調用;否則,系統從識別服務(wù)器所在的硬盤(pán)上加載所指定的語(yǔ)法。如果識別服務(wù)器上也不存在對應的語(yǔ)法,則先判斷系統中是否有語(yǔ)法服務(wù)器,如果系統中不存在語(yǔ)法服務(wù)器,返回加載失敗。否則,識別服務(wù)器會(huì )向語(yǔ)法服務(wù)器申請該語(yǔ)法。如果語(yǔ)法服務(wù)器上無(wú)該語(yǔ)法或其他原因無(wú)法得到該語(yǔ)法,返回加載失敗。否則,下載該語(yǔ)法服務(wù)器到本地。并加載。返回句柄。

  引擎在加載語(yǔ)法時(shí),如果找不到指定的語(yǔ)法Key的語(yǔ)法,就會(huì )加載用戶(hù)指定的二進(jìn)制語(yǔ)法文件,同時(shí)將指定的語(yǔ)法Key作為該語(yǔ)法的key。最后返回語(yǔ)法的handle。 要注意的是,語(yǔ)法加載是針對會(huì )話(huà)的。

4.6 系統的穩健性和效率

  對于電信或大企業(yè)級別的的應用系統來(lái)說(shuō),穩健性和效率是系統成功的關(guān)鍵。天朗分布式識別系統通過(guò)多種有效技術(shù),來(lái)提高系統的效率和穩健性。

  1. 系統通過(guò)設立資源管理器來(lái)統一管理整個(gè)系統的識別資源分配和回收,資源管理器通過(guò)一個(gè)高效的負載分析策略,根據系統的當前狀態(tài),分配負載最輕的識別服務(wù)器以提高整個(gè)系統的整體效率。

  2. 一般來(lái)說(shuō),一個(gè)系統只要一個(gè)資源管理器就可以穩定工作,但是,采用多個(gè)資源管理器互相備份可以更有效的保證系統的穩定性。天朗分布式識別系統可以同時(shí)支持多個(gè)資源管理器同時(shí)工作。和其他的類(lèi)似系統不同的是,其他類(lèi)似系統在工作時(shí)只有主資源管理器在工作,而備份資源管理器是不工作的。而天朗的分布式識別系統的每個(gè)資源管理器都負擔部分的資源分配工作,因此,可以充分利用系統的資源,提高系統的效率。另外,每個(gè)資源管理器又是互相備份的,當一個(gè)資源管理器出現問(wèn)題,其他的資源管理器會(huì )自動(dòng)的接過(guò)出現問(wèn)題的服務(wù)器的工作,所以對于系統的穩定性有了充分的保障。

  3. 對于識別服務(wù)器,和資源管理器一樣,備份的服務(wù)器并不是閑著(zhù)不工作,它們和其他識別服務(wù)器一樣承擔識別任務(wù),這樣可以有效的分配負載,提高系統的效率,同時(shí)減輕系統的投資。同樣的,識別服務(wù)器又是互相備份的,當一個(gè)識別服務(wù)器出現故障時(shí),該服務(wù)器會(huì )自動(dòng)的從系統中被剔除,其工作會(huì )由其他的識別服務(wù)器承擔。

  4. 服務(wù)器可以動(dòng)態(tài)加入和退出,不論是資源管理器還是識別服務(wù)器,抑或是語(yǔ)法服務(wù)器,都可以動(dòng)態(tài)的隨時(shí)加入整個(gè)系統中,也可以動(dòng)態(tài)的從系統中退出,而對整個(gè)系統的穩定運行不會(huì )產(chǎn)生影響。因此,用戶(hù)可以根據整個(gè)系統的運行情況,隨時(shí)加入新的服務(wù)器以應付增加的呼叫量,也可以在負載變輕的時(shí)候,隨時(shí)關(guān)閉某些服務(wù)器。同時(shí),這種特性也保證某個(gè)服務(wù)器出現故障時(shí)不會(huì )影響系統的穩定運行。

  5. 由于分布式語(yǔ)音識別系統是一套比較復雜的系統,為了進(jìn)一步保證系統的穩定性,我們還開(kāi)發(fā)了一套監控程序來(lái)監視系統各個(gè)服務(wù)器的運行,一旦某個(gè)服務(wù)器出現故障,監控程序可以隨時(shí)重啟該服務(wù)器。這樣可以保證系統可靠運行。

五、天朗分布式語(yǔ)音識別引擎系統架構和識別技術(shù)的特點(diǎn)和優(yōu)勢

  天朗分布式語(yǔ)音識別引擎的分布式結構具有伸縮性強、成本效率高和配置靈活等特點(diǎn),具有支持大話(huà)務(wù)量、實(shí)時(shí)性高的能力;其客戶(hù)/服務(wù)結構使語(yǔ)音識別應用程序強大,具有極其高效的容錯性和負載平衡能力,保證了應用程序的高效可靠運行。

5.1系統架構的功能特點(diǎn):
·分布式結構 整個(gè)系統由多個(gè)識別服務(wù)器通過(guò)局域網(wǎng)組成,資源管理器在語(yǔ)音識別服務(wù)器間進(jìn)行負載均衡,從而保證硬件的利用效率。對CPU運算強度需求很大的識別被放在單獨的識別服務(wù)器上來(lái)執行,而不用占用應用程序的CPU資源。每個(gè)語(yǔ)音識別服務(wù)器可以支持多個(gè)客戶(hù)端,資源管理器可以將呼叫平均分布到多個(gè)語(yǔ)音識別服務(wù)器上執行。這種結構優(yōu)化了內存和CPU資源的使用,使得系統可以支持大話(huà)務(wù)量的實(shí)時(shí)性的語(yǔ)音識別任務(wù),可以支持電信級、大企業(yè)級的應用需求。

·高密度接口 將對CPU運算需求密集的語(yǔ)音識別任務(wù)從客戶(hù)端轉移到識別服務(wù)器端,使得客戶(hù)端可以抽出處理能力來(lái)支持高密度的接口,從而提高應用程序系統的接入量。

·容錯和可靠性 整個(gè)識別引擎經(jīng)過(guò)精心的設計,具有很高的容錯和可靠性,使得各個(gè)服務(wù)器可以動(dòng)態(tài)的加入和退出系統,而對整個(gè)系統的運行沒(méi)有影響,因此,即使個(gè)別服務(wù)器失效,也不會(huì )使系統崩潰。當一個(gè)識別服務(wù)器失效時(shí),資源管理器會(huì )自動(dòng)停止向其發(fā)送請求,當服務(wù)器恢復時(shí),又會(huì )自動(dòng)開(kāi)始向它發(fā)送請求。另外,系統允許配備備份服務(wù)器來(lái)保證系統的可靠運行,在平時(shí),備份服務(wù)器和其他服務(wù)器一樣,一起工作,承擔相同的工作,當有服務(wù)器崩潰時(shí),其他服務(wù)器會(huì )自動(dòng)的承擔崩潰服務(wù)器的工作。不僅為系統的可靠運行提供保證,而且可以充分利用備份服務(wù)器的能力。

·自動(dòng)監控 系統為每個(gè)服務(wù)器都配備了一個(gè)自動(dòng)監控程序來(lái)監控服務(wù)器的運行,如果監控程序發(fā)現服務(wù)器崩潰后,系統會(huì )自動(dòng)重啟服務(wù)器,并保存崩潰時(shí)的現場(chǎng)供以后分析。這不僅大大節約維護人員的時(shí)間和精力,而且自動(dòng)監控方式可以提供比人更快更準確的維護服務(wù),保證系統的穩定運行。
ü 維護方便 系統可以隨時(shí)關(guān)閉一個(gè)識別服務(wù)器進(jìn)行維修,也可以隨時(shí)把維修好的服務(wù)器加入到系統中,而對整個(gè)系統的性能沒(méi)有影響。

·可伸縮性 隨著(zhù)呼叫量的增加,系統可以隨時(shí)動(dòng)態(tài)增加服務(wù)器,而無(wú)須停止任何運行著(zhù)的應用程序或關(guān)閉IVR系統,這對那些需要常年連續運行的系統特別有用。

5.2 系統架構的綜合優(yōu)勢:
  由于語(yǔ)音識別的特點(diǎn)以及應用的特殊性,其對識別引擎的實(shí)時(shí)性能和穩健性要求相對較高,對于分布式識別引擎,還要求網(wǎng)絡(luò )傳輸要穩定可靠,且數據傳輸時(shí)間在整個(gè)任務(wù)所耗費的時(shí)間中所占的比重要小,天朗分布式語(yǔ)音識別引擎經(jīng)過(guò)精心設計,優(yōu)化,具有實(shí)時(shí)、穩定、靈活性高等的特點(diǎn)。

1. 實(shí)時(shí)性
  實(shí)時(shí)性是語(yǔ)音識別的一個(gè)重要特點(diǎn),特別是在電信級的應用中,對于用戶(hù)說(shuō)的話(huà)要實(shí)時(shí)識別處理,并能夠及時(shí)地給與回應,才能滿(mǎn)足用戶(hù)的需要。特別是對于分布式的語(yǔ)音識別引擎,由于數據要通過(guò)網(wǎng)絡(luò )傳送,從而必然導致實(shí)時(shí)性的下降。因此要求分布式的識別引擎必須認真考慮網(wǎng)絡(luò )傳輸的問(wèn)題,確保網(wǎng)絡(luò )傳輸過(guò)程所消耗的時(shí)間在整個(gè)識別任務(wù)中所占的比重非常小,才能保證整個(gè)系統的實(shí)時(shí)性的性能。天朗分布式語(yǔ)音識別引擎通過(guò)對識別算法和網(wǎng)絡(luò )通訊進(jìn)行優(yōu)化,保證了系統的實(shí)時(shí)性。

2. 穩定性
  穩定性是語(yǔ)音識別在電信級中應用的另一個(gè)重要特征,一般要求系統能夠長(cháng)期穩定的運行,才能滿(mǎn)足這種長(cháng)時(shí)間大負荷的任務(wù)的要求。由于分布式引擎運行在局域網(wǎng)上,因此,必須采取有效機制,確保整個(gè)系統的長(cháng)期穩定的運行。

  穩定性的另一個(gè)方面反映在強健的容錯能力和快速的錯誤修復能力,容錯能力是指當一個(gè)識別服務(wù)器宕機后,不會(huì )導致整個(gè)系統的崩潰。快速的修復能力是指系統在一個(gè)識別服務(wù)器出問(wèn)題后,可以很容易的通過(guò)重起服務(wù)器,或用一個(gè)新的識別服務(wù)器替代問(wèn)題服務(wù)器,而不需要系統整個(gè)重起。

  天朗分布式語(yǔ)音識別引擎通過(guò)精心設計,使得整個(gè)引擎在穩定性上取得重大突破,系統可以長(cháng)時(shí)穩定運行。另外,系統的優(yōu)異的架構設計使得系統中的任意一個(gè)服務(wù)器出現問(wèn)題后,其任務(wù)會(huì )被其他同類(lèi)服務(wù)器承擔,而不會(huì )對整個(gè)系統造成影響。另外,為了保證萬(wàn)無(wú)一失,我們還開(kāi)發(fā)了自動(dòng)監控程序來(lái)監視各個(gè)服務(wù)器的運行,從而保證當服務(wù)器宕機后,能很快恢復,從而保證系統的穩定運行。

3. 靈活性
  靈活性是擴大引擎的應用面和減少后期支持的一個(gè)重要特征,靈活性包括系統支持多種操作系統平臺的混合網(wǎng)絡(luò ),能夠支持單機運行到多服務(wù)器網(wǎng)絡(luò )的配置。這種靈活性可以逐步分階段來(lái)實(shí)現。天朗分布式語(yǔ)音識別引擎的經(jīng)過(guò)精心設計的架構使得這個(gè)引擎可以支持多種操作系統平臺的混合運行。

5.3識別引擎的技術(shù)特點(diǎn):
·連續語(yǔ)音 在講話(huà)的時(shí)候不需要刻意地逐字講話(huà),而是可以連續地說(shuō)話(huà)。
·自然語(yǔ)言 用戶(hù)可以用自然的方式講話(huà),而不是象錄音對比系統那樣必須按照錄音時(shí)的講話(huà)方式來(lái)講。
·與說(shuō)話(huà)人無(wú)關(guān) 天朗分布式語(yǔ)音識別引擎在進(jìn)行語(yǔ)音識別時(shí),不受說(shuō)話(huà)人的限制,所以說(shuō)話(huà)人在使用前不需要進(jìn)行語(yǔ)音訓練和適應準備。
·多語(yǔ)言 天朗分布式語(yǔ)音識別引擎支持多種語(yǔ)言的混合識別。
·準確率高 語(yǔ)音識別的準確性是考察一個(gè)識別引擎的一個(gè)重要參數,天朗分布式語(yǔ)音識別引擎是在連續三次獲得863競賽第一名的清華大學(xué)電子工程系系語(yǔ)音識別實(shí)驗室研究的核心識別技術(shù)的基礎上開(kāi)發(fā)的,具有國內領(lǐng)先的識別準確率。
·多候選和置信度信息 能夠提供多個(gè)可能的識別結果,按照其置信度大小順序排列;
·支持動(dòng)態(tài)語(yǔ)法 動(dòng)態(tài)語(yǔ)法是指應用程序運行時(shí),允許語(yǔ)法動(dòng)態(tài)創(chuàng )建和修改。這在實(shí)際應用場(chǎng)合是非常有用的,如: 應用系統的語(yǔ)法在運行時(shí)不能徹底確定,或者在運行時(shí)需要動(dòng)態(tài)修改。這能夠較大地提高系統的靈活性。
·對噪音和口音的適應能力強 天朗分布式語(yǔ)音識別引擎能夠適應較為惡劣的噪音環(huán)境,對于不同口音也有很強的適應能力。
·適應多種平臺 天朗分布式語(yǔ)音識別引擎是一種基于客戶(hù)服務(wù)結構的語(yǔ)音識別引擎,能夠適應多種工業(yè)化的系統平臺。
·靈活性和可擴展性 天朗分布式語(yǔ)音識別引擎提供標準C接口和多種靈活方便的使用方式,可以采取多種方式構建系統,以及和現有系統整合。

六、天朗分布式語(yǔ)音識別系統運行環(huán)境
1. 硬件環(huán)境
  Intel 奔騰3或以上的PC、服務(wù)器(包括各種CPU類(lèi)型的服務(wù)器)、工作站(包括各種CPU類(lèi)型的工作站);內存建議為256Mb以上DDR或RAMBUS內存,40GB以上硬盤(pán), 網(wǎng)絡(luò )采用100M帶寬以上局域網(wǎng),支持TCP/IP協(xié)議。
2. 軟件環(huán)境
  WINDOWS NT/2000/XP操作系統。

天朗語(yǔ)音公司供稿 CTI論壇編輯



相關(guān)鏈接:
天朗分布式語(yǔ)音識別系統在語(yǔ)音門(mén)戶(hù)中的使用 2003-10-13
天朗分布式語(yǔ)音識別系統改造傳統IVR 2003-10-10
鍵盤(pán)漸成擺設,未來(lái)手機一呼通 2003-09-22
天朗語(yǔ)音成功開(kāi)發(fā)出分布式語(yǔ)音識別系統 2003-09-19
天朗"一呼通",提升智能化 2003-04-28

分類(lèi)信息:     技術(shù)_語(yǔ)音識別_解決方案
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 晋宁县| 浦北县| 延吉市| 光泽县| 灵山县| 泰兴市| 桃江县| 安塞县| 阿勒泰市| 额尔古纳市| 乌兰察布市| 鸡西市| 天台县| 黑龙江省| 博野县| 中阳县| 饶阳县| 隆林| 贡山| 高唐县| 五寨县| 衡南县| 康平县| 江达县| 江西省| 绥德县| 太湖县| 聂拉木县| 双鸭山市| 淳化县| 宜春市| 湖北省| 阆中市| 搜索| 吕梁市| 肥乡县| 嘉荫县| 辽宁省| 固阳县| 墨玉县| 沐川县| http://444 http://444 http://444 http://444 http://444 http://444