語(yǔ)音識別應用促進(jìn)技術(shù)發(fā)展
清華大學(xué) 劉加 2006/07/31
語(yǔ)音識別算法雖然還有很多問(wèn)題沒(méi)有解決,但語(yǔ)音識別技術(shù)已經(jīng)開(kāi)始逐步進(jìn)入實(shí)用階段。在發(fā)達國家語(yǔ)音識別技術(shù)已經(jīng)用于信息服務(wù)系統和查詢(xún)系統,人們可以通過(guò)電話(huà)網(wǎng)絡(luò )查詢(xún)有關(guān)的信息,并且取得很好的結果。
語(yǔ)音識別算法雖然還有很多問(wèn)題沒(méi)有解決,但語(yǔ)音識別技術(shù)已經(jīng)開(kāi)始逐步進(jìn)入實(shí)用階段。在發(fā)達國家語(yǔ)音識別技術(shù)已經(jīng)用于信息服務(wù)系統和查詢(xún)系統,人們可以通過(guò)電話(huà)網(wǎng)絡(luò )查詢(xún)有關(guān)的信息,并且取得很好的結果。用戶(hù)交換機、電話(huà)機、手機也包含了語(yǔ)音識別撥號功能。調查統計表明多達80%以上的人對這些服務(wù)表示滿(mǎn)意。中小詞匯量的語(yǔ)音識別系統(<200詞)已經(jīng)達到可以實(shí)用的階段。目前國外對具有口語(yǔ)對話(huà)系統和語(yǔ)音芯片技術(shù)的研究和開(kāi)發(fā)投資也在大量增加。
語(yǔ)音芯片的應用
近年來(lái)語(yǔ)音芯片應用越來(lái)越廣泛,主要包括:
1.電話(huà)通信中的語(yǔ)音撥號。特別是在中、高檔移動(dòng)電話(huà)上,現已普遍具有語(yǔ)音撥號的功能。隨著(zhù)語(yǔ)音識別芯片的價(jià)格降低,普通電話(huà)上也將具備語(yǔ)音撥號的功能。
2. 汽車(chē)的語(yǔ)音控制。由于在汽車(chē)的行駛過(guò)程中,駕駛員的手必須放在方向盤(pán)上,因此在汽車(chē)上撥打電話(huà),需要使用具有語(yǔ)音撥號功能的免提電話(huà)通信方式。此外,對汽車(chē)的門(mén)、窗、空調、照明以及音響等設備,同樣也可以由語(yǔ)音來(lái)方便地進(jìn)行控制。
3. 工業(yè)控制及醫療領(lǐng)域。當操作人員的眼或手已經(jīng)被占用的情況下,在增加控制操作時(shí),最好的辦法就是增加人與機器的語(yǔ)音交互界面。由語(yǔ)音對機器發(fā)出命令,機器用語(yǔ)音做出應答。
4. 個(gè)人數字助理(Personal Digital Assistant,PDA)的語(yǔ)音交互界面。PDA的體積很小,人機界面一直是其應用和技術(shù)的瓶頸之一。由于在PDA上使用鍵盤(pán)非常不便,因此,現多采用手寫(xiě)體識別的方法輸入和查詢(xún)信息。但是,這種方法仍然讓用戶(hù)感到很不方便。現在業(yè)界一致認為,PDA的最佳人機交互界面是以語(yǔ)音作為傳輸介質(zhì)的交互方法,并且已有少量應用。隨著(zhù)語(yǔ)音識別技術(shù)的提高,可以預見(jiàn),在不久的將來(lái),語(yǔ)音將成為PDA主要的人機交互界面。
5. 智能玩具。通過(guò)語(yǔ)音識別技術(shù),我們可以與智能娃娃對話(huà),可以用語(yǔ)音對玩具發(fā)出命令,讓其完成一些簡(jiǎn)單的任務(wù),甚至可以制造具有語(yǔ)音鎖功能的電子看門(mén)狗。智能玩具有很大的市場(chǎng)潛力,而其關(guān)鍵在于語(yǔ)音芯片價(jià)格的降低。
6. 家電遙控。用語(yǔ)音可以控制電視機、VCD、空調、電扇、窗簾的操作,而且一個(gè)遙控器就可以把家中的電器皆用語(yǔ)音控制起來(lái),這樣,可以讓令人頭疼的各種電器的操作變得簡(jiǎn)單易行。
語(yǔ)音識別專(zhuān)用芯片系統有如下幾個(gè)特點(diǎn): 1. 多為中、小詞匯量的語(yǔ)音識別系統,即只能夠識別10~100詞條。只有近一兩年來(lái),才有連續數碼或連續字母語(yǔ)音識別專(zhuān)用芯片實(shí)現。2.
一般僅限于特定人語(yǔ)音識別的實(shí)現,即需要讓使用者對所識別的詞條先進(jìn)行學(xué)習或訓練,這一類(lèi)識別功能對語(yǔ)種、方言和詞條沒(méi)有限制。有的芯片也能夠實(shí)現非特定人語(yǔ)音識別,即預先將所要識別的語(yǔ)句碼本訓練好而裝入芯片,用戶(hù)使用時(shí)不需要再進(jìn)行學(xué)習就可直接應用。但這一類(lèi)識別功能只適用于規定的語(yǔ)種和方言,而且所識別的語(yǔ)句只限于預先已訓練好的語(yǔ)句。3.
由此芯片組成一個(gè)完整的語(yǔ)音識別系統。因此,除了語(yǔ)音識別功能以外,為了有一個(gè)好的人機界面和識別正確與否的驗證,該系統還必須具備語(yǔ)音提示(語(yǔ)音合成)及語(yǔ)音回放(語(yǔ)音編解碼記錄)功能。4.
多為實(shí)時(shí)系統,即當用戶(hù)說(shuō)完待識別的詞條后,系統立即完成識別功能并有所回應,這就對電路的運算速度有較高的要求。5. 除了要求有盡可能好的識別性能外,還要求體積盡可能小、可靠性高、耗電省、價(jià)錢(qián)低等特點(diǎn)。
語(yǔ)音識別技術(shù)發(fā)展
在發(fā)達國家各種各樣基于語(yǔ)音識別技術(shù)的產(chǎn)品已經(jīng)可以買(mǎi)到,如具有聲控撥號電話(huà),語(yǔ)音記事本等等。語(yǔ)音電話(huà)服務(wù)、數據查詢(xún)服務(wù)也已經(jīng)部分實(shí)現。基于特定任務(wù)和環(huán)境的聽(tīng)寫(xiě)機也已經(jīng)進(jìn)入應用階段。語(yǔ)音識別技術(shù)是非常重要的人機交互技術(shù),有著(zhù)非常廣泛的應用前景。
說(shuō)話(huà)者自適應技術(shù)近年在語(yǔ)音識別系統的研究中也備受重視,這是由于與人有關(guān)的語(yǔ)音識別系統比與人無(wú)關(guān)的語(yǔ)音識別系統的識別率要高很多。通過(guò)有效的自適應手段可以很快地提高系統的識別能力。實(shí)際上說(shuō)話(huà)人自適應技術(shù)和穩健語(yǔ)音自適應技術(shù)是相通的。由于不同的說(shuō)話(huà)人在聲道長(cháng)度,說(shuō)話(huà)口音方式都很不一樣。說(shuō)話(huà)者自適應技術(shù)也主要是從以下兩方面著(zhù)手。
靜態(tài)處理方法。從特征提取或訓練階段就盡可能減少來(lái)自說(shuō)話(huà)人的變化因素對模型的貢獻。可以進(jìn)行聲道參數的歸一化處理或對說(shuō)話(huà)人進(jìn)行分類(lèi)處理,如分男女聲的識別系統就是其中的一個(gè)典型,但實(shí)際上僅僅從男女聲上對模型分類(lèi)還是太粗,可以通過(guò)有效的聚類(lèi)方法進(jìn)行分類(lèi)。這類(lèi)方法統稱(chēng)為聲學(xué)歸一化處理方法。
動(dòng)態(tài)處理方法。對預先訓練好的與人無(wú)關(guān)識別系統,通過(guò)臨時(shí)得到的特定人語(yǔ)音數據對系統的模板或特征參數進(jìn)行自適應修正,從而在原有系統基礎上建立一個(gè)用于特定任務(wù)、特定環(huán)境或特定說(shuō)話(huà)人的系統,這類(lèi)方法統稱(chēng)為自適應方法。自適應方法可分為:
批模式、累進(jìn)模式、即時(shí)模式; 按自適應學(xué)習策略又分為無(wú)監督學(xué)習和有監督學(xué)習。從用戶(hù)使用的方便程度來(lái)看是由難到易,而算法實(shí)現則是由易到難。采用何種策略取決于應用背景,對識別率的要求等因素。對于聽(tīng)寫(xiě)機等應用來(lái)說(shuō),最具吸引力的是累進(jìn)、無(wú)監督的自適應方式,也稱(chēng)在線(xiàn)自適應。
語(yǔ)言模型也是目前研究的一個(gè)重要方面。目前的語(yǔ)言模型是與任務(wù)有關(guān)的,典型的統計語(yǔ)言模型是通過(guò)大量任務(wù)特定的語(yǔ)料訓練出來(lái)的。通過(guò)新聞?wù)Z(yǔ)料訓練出來(lái)的模型不能很好地工作于法律方面的文件語(yǔ)音識別。有幾種方法用于解決這些問(wèn)題。一種是使用自適應語(yǔ)言模型。在靜態(tài)語(yǔ)言模型的基礎上,通過(guò)一個(gè)高速緩沖存儲器對語(yǔ)言模型進(jìn)行動(dòng)態(tài)的修正;
另一種是先訓練多領(lǐng)域語(yǔ)言模型,然后通過(guò)混合高斯模型將這些模型結合在一起; 還有一種比較好的辦法是使用大顆粒的語(yǔ)言模型,如基于類(lèi)的語(yǔ)言模型,而不是基于詞的語(yǔ)言模型,類(lèi)可以是詞性類(lèi),詞義類(lèi),以及由一定的數據驅動(dòng)的聚類(lèi)算法產(chǎn)生的各種類(lèi)。
由于不同詞可以屬于同一類(lèi),這樣類(lèi)比較大,構成的語(yǔ)言模型就比較穩健。其關(guān)鍵的問(wèn)題是如何決定詞的分類(lèi),由于詞的分類(lèi)比較復雜,同一詞可能屬于不同的類(lèi),特別是解決如何通過(guò)計算機實(shí)現自動(dòng)分類(lèi)的算法,即使用數據驅動(dòng)算法也還沒(méi)有很好地解決。基于統計技術(shù)的計算語(yǔ)言學(xué)已經(jīng)越來(lái)越受到重視,它解決了單獨規則語(yǔ)言模型不能解決的一些問(wèn)題。當然統計語(yǔ)言模型也不能解決全部問(wèn)題,因此如何把統計語(yǔ)言模型和基于規則的語(yǔ)言模型結合也是語(yǔ)言模型研究的重點(diǎn)之一。
目前不同快速語(yǔ)音識別算法都在開(kāi)發(fā)中。其中包括對HMM狀態(tài)輸出的概率分布進(jìn)行矢量量化,縮小搜索空間算法,減少計算機的內存需求方法,以及結合計算機結構特點(diǎn)的編程技術(shù)的應用。
鏈接:穩健語(yǔ)音識別技術(shù)
語(yǔ)音識別系統的穩健性技術(shù)是到目前還沒(méi)有解決好的重要問(wèn)題。穩健語(yǔ)音識別要解決的問(wèn)題是訓練環(huán)境和實(shí)用環(huán)境不同而導致的不匹配問(wèn)題。由于環(huán)境變化多種多樣,識別系統要面對不同說(shuō)話(huà)風(fēng)格的人(包括說(shuō)話(huà)快慢、音調、重音變化、情緒變化、年齡不同、聲道長(cháng)度的不同等等)、不同麥克風(fēng)的種類(lèi)(包括麥克風(fēng)的相對位置和方向變化)、信道畸變和噪聲,以及說(shuō)話(huà)的環(huán)境(包括房屋回響、背景噪聲等)。
穩健語(yǔ)音識別技術(shù)包括三個(gè)方面:1. 穩健語(yǔ)音特征提取和預處理技術(shù)。其中包括噪聲掩蓋處理技術(shù)、特征變換、聽(tīng)覺(jué)模型,以及不同穩健和可信度測度的研究。研究的中心是最大可能的開(kāi)采語(yǔ)音中的整體信息,以便盡可能地減少噪聲的干擾。2.
多樣式的訓練是一種有效方法,但這種訓練要求取得大量不同噪聲情況下的語(yǔ)音數據,這使該種方法實(shí)現非常困難。3.自適應的特征或模型的補償技術(shù)。其中包括簡(jiǎn)單的自適應均值偏差消除,進(jìn)一步包括方差補償,線(xiàn)性和非線(xiàn)性的回歸和變換,基于狀態(tài)的濾波,語(yǔ)音和噪聲復合模型,最大后驗自適應算法,隨機匹配算法。這些不同技術(shù)有的僅僅在不同的小范圍內獲得有限成功,還沒(méi)有一種技術(shù)在大詞匯量的語(yǔ)音識別系統中獲得成功。
計算機世界網(wǎng)(www.ccw.com.cn)
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
永善县|
澄江县|
香格里拉县|
惠州市|
金塔县|
灵寿县|
阿拉善左旗|
苗栗市|
华阴市|
南川市|
永川市|
丹江口市|
开原市|
壤塘县|
永定县|
治多县|
汝南县|
神木县|
西城区|
涟源市|
潞西市|
德安县|
萍乡市|
漳浦县|
高要市|
南城县|
绥宁县|
彭泽县|
林州市|
张家港市|
许昌市|
仙居县|
承德县|
古浪县|
曲松县|
江油市|
竹溪县|
嘉义市|
蕲春县|
疏附县|
通辽市|
http://444
http://444
http://444
http://444
http://444
http://444