首頁>>>技術(shù)>>>語音應(yīng)用>>>語音識別(ASR)　　語音識別產(chǎn)品

語音識別應(yīng)用促進(jìn)技術(shù)發(fā)展

清華大學(xué) 劉加 2006/07/31

　　語音識別算法雖然還有很多問題沒有解決，但語音識別技術(shù)已經(jīng)開始逐步進(jìn)入實(shí)用階段。在發(fā)達(dá)國家語音識別技術(shù)已經(jīng)用于信息服務(wù)系統(tǒng)和查詢系統(tǒng)，人們可以通過電話網(wǎng)絡(luò)查詢有關(guān)的信息，并且取得很好的結(jié)果。

　　語音識別算法雖然還有很多問題沒有解決，但語音識別技術(shù)已經(jīng)開始逐步進(jìn)入實(shí)用階段。在發(fā)達(dá)國家語音識別技術(shù)已經(jīng)用于信息服務(wù)系統(tǒng)和查詢系統(tǒng)，人們可以通過電話網(wǎng)絡(luò)查詢有關(guān)的信息，并且取得很好的結(jié)果。用戶交換機(jī)、電話機(jī)、手機(jī)也包含了語音識別撥號功能。調(diào)查統(tǒng)計(jì)表明多達(dá)80%以上的人對這些服務(wù)表示滿意。中小詞匯量的語音識別系統(tǒng)（<200詞）已經(jīng)達(dá)到可以實(shí)用的階段。目前國外對具有口語對話系統(tǒng)和語音芯片技術(shù)的研究和開發(fā)投資也在大量增加。

　　語音芯片的應(yīng)用

　　近年來語音芯片應(yīng)用越來越廣泛，主要包括:

　　1.電話通信中的語音撥號。特別是在中、高檔移動電話上，現(xiàn)已普遍具有語音撥號的功能。隨著語音識別芯片的價格降低，普通電話上也將具備語音撥號的功能。

　　2. 汽車的語音控制。由于在汽車的行駛過程中，駕駛員的手必須放在方向盤上，因此在汽車上撥打電話，需要使用具有語音撥號功能的免提電話通信方式。此外，對汽車的門、窗、空調(diào)、照明以及音響等設(shè)備，同樣也可以由語音來方便地進(jìn)行控制。

　　3. 工業(yè)控制及醫(yī)療領(lǐng)域。當(dāng)操作人員的眼或手已經(jīng)被占用的情況下，在增加控制操作時，最好的辦法就是增加人與機(jī)器的語音交互界面。由語音對機(jī)器發(fā)出命令，機(jī)器用語音做出應(yīng)答。

　　4. 個人數(shù)字助理（Personal Digital Assistant，PDA）的語音交互界面。PDA的體積很小，人機(jī)界面一直是其應(yīng)用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤非常不便，因此，現(xiàn)多采用手寫體識別的方法輸入和查詢信息。但是，這種方法仍然讓用戶感到很不方便�，F(xiàn)在業(yè)界一致認(rèn)為，PDA的最佳人機(jī)交互界面是以語音作為傳輸介質(zhì)的交互方法，并且已有少量應(yīng)用。隨著語音識別技術(shù)的提高，可以預(yù)見，在不久的將來，語音將成為PDA主要的人機(jī)交互界面。

　　5. 智能玩具。通過語音識別技術(shù)，我們可以與智能娃娃對話，可以用語音對玩具發(fā)出命令，讓其完成一些簡單的任務(wù)，甚至可以制造具有語音鎖功能的電子看門狗。智能玩具有很大的市場潛力，而其關(guān)鍵在于語音芯片價格的降低。

　　6. 家電遙控。用語音可以控制電視機(jī)、VCD、空調(diào)、電扇、窗簾的操作，而且一個遙控器就可以把家中的電器皆用語音控制起來，這樣，可以讓令人頭疼的各種電器的操作變得簡單易行。

　　語音識別專用芯片系統(tǒng)有如下幾個特點(diǎn): 1. 多為中、小詞匯量的語音識別系統(tǒng)，即只能夠識別10～100詞條。只有近一兩年來，才有連續(xù)數(shù)碼或連續(xù)字母語音識別專用芯片實(shí)現(xiàn)。2. 一般僅限于特定人語音識別的實(shí)現(xiàn)，即需要讓使用者對所識別的詞條先進(jìn)行學(xué)習(xí)或訓(xùn)練,這一類識別功能對語種、方言和詞條沒有限制。有的芯片也能夠?qū)崿F(xiàn)非特定人語音識別，即預(yù)先將所要識別的語句碼本訓(xùn)練好而裝入芯片，用戶使用時不需要再進(jìn)行學(xué)習(xí)就可直接應(yīng)用。但這一類識別功能只適用于規(guī)定的語種和方言，而且所識別的語句只限于預(yù)先已訓(xùn)練好的語句。3. 由此芯片組成一個完整的語音識別系統(tǒng)。因此，除了語音識別功能以外，為了有一個好的人機(jī)界面和識別正確與否的驗(yàn)證，該系統(tǒng)還必須具備語音提示（語音合成）及語音回放（語音編解碼記錄）功能。4. 多為實(shí)時系統(tǒng)，即當(dāng)用戶說完待識別的詞條后，系統(tǒng)立即完成識別功能并有所回應(yīng)，這就對電路的運(yùn)算速度有較高的要求。5. 除了要求有盡可能好的識別性能外，還要求體積盡可能小、可靠性高、耗電省、價錢低等特點(diǎn)。

　　語音識別技術(shù)發(fā)展

　　在發(fā)達(dá)國家各種各樣基于語音識別技術(shù)的產(chǎn)品已經(jīng)可以買到，如具有聲控?fù)芴栯娫挘Z音記事本等等。語音電話服務(wù)、數(shù)據(jù)查詢服務(wù)也已經(jīng)部分實(shí)現(xiàn)�；谔囟ㄈ蝿�(wù)和環(huán)境的聽寫機(jī)也已經(jīng)進(jìn)入應(yīng)用階段。語音識別技術(shù)是非常重要的人機(jī)交互技術(shù)，有著非常廣泛的應(yīng)用前景。

　　說話者自適應(yīng)技術(shù)近年在語音識別系統(tǒng)的研究中也備受重視，這是由于與人有關(guān)的語音識別系統(tǒng)比與人無關(guān)的語音識別系統(tǒng)的識別率要高很多。通過有效的自適應(yīng)手段可以很快地提高系統(tǒng)的識別能力。實(shí)際上說話人自適應(yīng)技術(shù)和穩(wěn)健語音自適應(yīng)技術(shù)是相通的。由于不同的說話人在聲道長度，說話口音方式都很不一樣。說話者自適應(yīng)技術(shù)也主要是從以下兩方面著手。

　　靜態(tài)處理方法。從特征提取或訓(xùn)練階段就盡可能減少來自說話人的變化因素對模型的貢獻(xiàn)�？梢赃M(jìn)行聲道參數(shù)的歸一化處理或?qū)φf話人進(jìn)行分類處理，如分男女聲的識別系統(tǒng)就是其中的一個典型，但實(shí)際上僅僅從男女聲上對模型分類還是太粗，可以通過有效的聚類方法進(jìn)行分類。這類方法統(tǒng)稱為聲學(xué)歸一化處理方法。

　　動態(tài)處理方法。對預(yù)先訓(xùn)練好的與人無關(guān)識別系統(tǒng)，通過臨時得到的特定人語音數(shù)據(jù)對系統(tǒng)的模板或特征參數(shù)進(jìn)行自適應(yīng)修正，從而在原有系統(tǒng)基礎(chǔ)上建立一個用于特定任務(wù)、特定環(huán)境或特定說話人的系統(tǒng)，這類方法統(tǒng)稱為自適應(yīng)方法。自適應(yīng)方法可分為: 批模式、累進(jìn)模式、即時模式; 按自適應(yīng)學(xué)習(xí)策略又分為無監(jiān)督學(xué)習(xí)和有監(jiān)督學(xué)習(xí)。從用戶使用的方便程度來看是由難到易，而算法實(shí)現(xiàn)則是由易到難。采用何種策略取決于應(yīng)用背景，對識別率的要求等因素。對于聽寫機(jī)等應(yīng)用來說，最具吸引力的是累進(jìn)、無監(jiān)督的自適應(yīng)方式，也稱在線自適應(yīng)。

　　語言模型也是目前研究的一個重要方面。目前的語言模型是與任務(wù)有關(guān)的，典型的統(tǒng)計(jì)語言模型是通過大量任務(wù)特定的語料訓(xùn)練出來的。通過新聞?wù)Z料訓(xùn)練出來的模型不能很好地工作于法律方面的文件語音識別。有幾種方法用于解決這些問題。一種是使用自適應(yīng)語言模型。在靜態(tài)語言模型的基礎(chǔ)上，通過一個高速緩沖存儲器對語言模型進(jìn)行動態(tài)的修正; 另一種是先訓(xùn)練多領(lǐng)域語言模型，然后通過混合高斯模型將這些模型結(jié)合在一起; 還有一種比較好的辦法是使用大顆粒的語言模型，如基于類的語言模型，而不是基于詞的語言模型，類可以是詞性類，詞義類，以及由一定的數(shù)據(jù)驅(qū)動的聚類算法產(chǎn)生的各種類。

　　由于不同詞可以屬于同一類，這樣類比較大，構(gòu)成的語言模型就比較穩(wěn)健。其關(guān)鍵的問題是如何決定詞的分類，由于詞的分類比較復(fù)雜，同一詞可能屬于不同的類，特別是解決如何通過計(jì)算機(jī)實(shí)現(xiàn)自動分類的算法，即使用數(shù)據(jù)驅(qū)動算法也還沒有很好地解決�；诮y(tǒng)計(jì)技術(shù)的計(jì)算語言學(xué)已經(jīng)越來越受到重視，它解決了單獨(dú)規(guī)則語言模型不能解決的一些問題。當(dāng)然統(tǒng)計(jì)語言模型也不能解決全部問題，因此如何把統(tǒng)計(jì)語言模型和基于規(guī)則的語言模型結(jié)合也是語言模型研究的重點(diǎn)之一。

　　目前不同快速語音識別算法都在開發(fā)中。其中包括對HMM狀態(tài)輸出的概率分布進(jìn)行矢量量化，縮小搜索空間算法，減少計(jì)算機(jī)的內(nèi)存需求方法，以及結(jié)合計(jì)算機(jī)結(jié)構(gòu)特點(diǎn)的編程技術(shù)的應(yīng)用。

　　鏈接:穩(wěn)健語音識別技術(shù)

　　語音識別系統(tǒng)的穩(wěn)健性技術(shù)是到目前還沒有解決好的重要問題。穩(wěn)健語音識別要解決的問題是訓(xùn)練環(huán)境和實(shí)用環(huán)境不同而導(dǎo)致的不匹配問題。由于環(huán)境變化多種多樣，識別系統(tǒng)要面對不同說話風(fēng)格的人（包括說話快慢、音調(diào)、重音變化、情緒變化、年齡不同、聲道長度的不同等等）、不同麥克風(fēng)的種類（包括麥克風(fēng)的相對位置和方向變化）、信道畸變和噪聲，以及說話的環(huán)境（包括房屋回響、背景噪聲等）。

　　穩(wěn)健語音識別技術(shù)包括三個方面:1. 穩(wěn)健語音特征提取和預(yù)處理技術(shù)。其中包括噪聲掩蓋處理技術(shù)、特征變換、聽覺模型，以及不同穩(wěn)健和可信度測度的研究。研究的中心是最大可能的開采語音中的整體信息，以便盡可能地減少噪聲的干擾。2. 多樣式的訓(xùn)練是一種有效方法，但這種訓(xùn)練要求取得大量不同噪聲情況下的語音數(shù)據(jù)，這使該種方法實(shí)現(xiàn)非常困難。3.自適應(yīng)的特征或模型的補(bǔ)償技術(shù)。其中包括簡單的自適應(yīng)均值偏差消除，進(jìn)一步包括方差補(bǔ)償，線性和非線性的回歸和變換，基于狀態(tài)的濾波，語音和噪聲復(fù)合模型，最大后驗(yàn)自適應(yīng)算法，隨機(jī)匹配算法。這些不同技術(shù)有的僅僅在不同的小范圍內(nèi)獲得有限成功，還沒有一種技術(shù)在大詞匯量的語音識別系統(tǒng)中獲得成功。

計(jì)算機(jī)世界網(wǎng)(www.ccw.com.cn)

相關(guān)鏈接:

識別語音的幾種依據(jù) 2006-07-31

語音識別技術(shù)突飛猛進(jìn) 終有一天超過人？ 2006-07-20

語音識別標(biāo)準(zhǔn)之痛 2006-06-19

你好！新語音識別時代 2006-06-01

藏在舌尖上的“身份證”:走向民品市場的聲音識別技術(shù) 2006-05-30