語(yǔ)音識別:抗噪音能力有待加強
王向東 欒煥博 林守勛 錢(qián)躍良 2006/08/11
語(yǔ)音識別已經(jīng)成為一個(gè)面向多種應用、滿(mǎn)足多種需求的龐大體系,這種技術(shù)的廣泛應用推動(dòng)了語(yǔ)音識別評測的誕生,而評測反過(guò)來(lái)又推動(dòng)了語(yǔ)音識別技術(shù)的進(jìn)步。
語(yǔ)音識別是指用計算機對人的語(yǔ)音信號進(jìn)行分析處理,從而得到其對應文字的過(guò)程。其最終目的就是實(shí)現一種自然的人機交互方式,使機器能聽(tīng)懂人的語(yǔ)言,辨明話(huà)音的內容,將人的語(yǔ)音正確地轉化為對應的文本,或者根據語(yǔ)義做出相應的動(dòng)作。常見(jiàn)的應用系統有語(yǔ)音輸入系統、語(yǔ)音控制系統、智能對話(huà)查詢(xún)系統等。而語(yǔ)音識別評測是指針對語(yǔ)音識別的某項應用,創(chuàng )建評測語(yǔ)料庫,提出評測指標和對應算法,用評測語(yǔ)料訓練和測試各參評系統,并對其識別結果進(jìn)行比較和分析的過(guò)程。
實(shí)際上,從1987年起,美國國家標準技術(shù)局就開(kāi)始組織對各大學(xué)和公司研發(fā)的語(yǔ)音識別系統進(jìn)行評測。十幾年間,根據技術(shù)的現狀,組織了多次不同任務(wù)的評測,促進(jìn)了領(lǐng)域內的競爭和交流,對語(yǔ)音識別技術(shù)的進(jìn)步和發(fā)展起到了巨大的引領(lǐng)和推動(dòng)作用。
當前,國際上知名的語(yǔ)音識別評測主要有: 美國NIST(國家標準技術(shù)局)評測、歐洲TC-STAR評測和中國的863評測。美國NIST評測是開(kāi)展歷史最久、項目設置最全也最負盛名的評測,近20年來(lái),每年都針對語(yǔ)音識別方向的熱點(diǎn)技術(shù)組織國際性評測,涉及的語(yǔ)言有英語(yǔ)、漢語(yǔ)普通話(huà)和阿拉伯語(yǔ),涉及的任務(wù)有孤立詞識別、關(guān)鍵詞識別和大詞匯量連續語(yǔ)音識別,涉及的語(yǔ)音包括了朗讀語(yǔ)音、自然語(yǔ)音、對話(huà)語(yǔ)音、廣播語(yǔ)音、會(huì )議語(yǔ)音等各種常見(jiàn)的語(yǔ)音類(lèi)別。TC-STAR語(yǔ)音識別評測是歐盟TC-STAR項目的一部分。該項目主要針對語(yǔ)音到語(yǔ)音的機器自動(dòng)翻譯。其語(yǔ)音識別評測任務(wù)為連續語(yǔ)音識別,針對英語(yǔ)、西班牙語(yǔ)和漢語(yǔ)普通話(huà),處理的語(yǔ)音為會(huì )議發(fā)言(英語(yǔ)、西班牙語(yǔ))或新聞廣播(漢語(yǔ))。863語(yǔ)音識別評測是類(lèi)似NIST評測的綜合性評測,語(yǔ)言以漢語(yǔ)為主,任務(wù)和通道多樣,根據語(yǔ)音識別技術(shù)的現狀和發(fā)展趨勢不斷調整。
語(yǔ)音識別的主要技術(shù)
近年來(lái),由于大規模語(yǔ)料庫的支持,基于統計的語(yǔ)音識別方法逐漸發(fā)展成熟,取得了較好的識別結果,成為當前語(yǔ)音識別技術(shù)的主流。基于隱馬爾可夫模型(HMM)的統計語(yǔ)音識別在各個(gè)通道,各種任務(wù)的語(yǔ)音識別中得到了廣泛應用。
圖1所示為當前大多數語(yǔ)音識別系統采用的框架和流程。原始語(yǔ)音經(jīng)前端處理后,從中提取出若干維的特征向量用于識別。識別時(shí),聲學(xué)模型和語(yǔ)言模型共同作用,得到使某一概率最大的字串作為識別結果。
前端處理是指在特征提取之前,先對原始語(yǔ)音進(jìn)行處理,部分消除噪聲和不同說(shuō)話(huà)人帶來(lái)的影響,使處理后的信號更能反映語(yǔ)音的本質(zhì)特征。最常用的前端處理有端點(diǎn)檢測和語(yǔ)音增強。端點(diǎn)檢測是指在語(yǔ)音信號中將語(yǔ)音和非語(yǔ)音信號時(shí)段區分開(kāi)來(lái),準確地確定出語(yǔ)音信號的起始點(diǎn)。經(jīng)過(guò)端點(diǎn)檢測后,后續處理就可以只對語(yǔ)音信號進(jìn)行,這對提高模型的精確度和識別正確率有重要作用。語(yǔ)音增強的主要任務(wù)就是消除環(huán)境噪聲對語(yǔ)音的影響。目前通用的方法是采用維納濾波,該方法在噪聲較大的情況下效果好于其他濾波器。
在特征提取階段,一般是把語(yǔ)音信號切分成幾十毫秒的幀,對每一幀提取一個(gè)特征向量。但這樣會(huì )丟失幀與幀之間的聯(lián)接信息,無(wú)法反映幀之間的變化過(guò)程,因此,還應該加上向量的一階差分和二階差分(相當于連續函數中的一階導數和二階導數)共同構成特征。
如上文所述,目前主流的語(yǔ)音識別系統大多基于統計模式識別原理,其基礎是由聲學(xué)模型和語(yǔ)言模型共同構成的統計模型。
聲學(xué)模型是識別系統的底層模型,其目標是通過(guò)模型度量,尋找語(yǔ)音特征向量序列對應的發(fā)音。當前常用的聲學(xué)模型是隱馬爾可夫模型(HMM)。HMM模型可以看成一個(gè)雙重隨機過(guò)程,一個(gè)馬爾可夫鏈的各個(gè)狀態(tài)可以產(chǎn)生出各種輸出。這種機制較合理地模仿了人類(lèi)語(yǔ)言活動(dòng)的過(guò)程,對孤立詞和連續語(yǔ)音識別來(lái)說(shuō)都是較理想的聲學(xué)模型。
語(yǔ)言模型的作用是通過(guò)提供字或詞之間的上下文信息和語(yǔ)義信息。對于大詞匯量連續語(yǔ)音識別,語(yǔ)言模型是必不可少的關(guān)鍵模塊之一。目前比較成熟的方法是統計語(yǔ)言模型,當前的主流方法是N元文法(N-gram),其主要思想是根據已知前(N-1)個(gè)字或詞,預測第N個(gè)字或詞出現的概率。由于訓練語(yǔ)料的限制,目前主要采用三元語(yǔ)法。
訓練統計模型
對于統計模型,要想使得它能夠識別語(yǔ)音,必須對模型進(jìn)行訓練。所謂訓練,是指對大量的訓練語(yǔ)料進(jìn)行統計和處理,計算和調整模型的參數,使模型對未訓練過(guò)的數據也能達到理想的識別結果。語(yǔ)音識別系統的訓練主要包括聲學(xué)模型的訓練和語(yǔ)言模型的訓練。對于廣泛采用的HMM聲學(xué)模型,其訓練主要是獲取HMM中的狀態(tài)轉移概率、各狀態(tài)的輸出概率分布等參數。常用的方法是基于最大似然估計原理的迭代算法(如Baum-Welch算法)。對于基于三元文法的語(yǔ)言模型,其訓練主要是從大量的文本中計算三元組的概率。
當模型訓練好以后,就可以進(jìn)行識別了。語(yǔ)音識別算法的主要思路是在侯選的詞串中搜索使聲學(xué)模型和語(yǔ)言模型的概率乘積最大的詞串。因此,識別過(guò)程也常稱(chēng)作搜索(Search)或解碼(Decoding)。當前常用的搜索算法是Viterbi算法,其本質(zhì)是一種動(dòng)態(tài)規劃方法。
當前的語(yǔ)音識別系統大都是說(shuō)話(huà)人無(wú)關(guān)(Speaker Independent)系統,即事先并不知道要識別的語(yǔ)音的說(shuō)話(huà)人特征。但是,對于某個(gè)說(shuō)話(huà)人,如果能夠適當學(xué)習他(她)的發(fā)音特點(diǎn),調整模型參數,顯然會(huì )使得識別效果更好。這就是說(shuō)話(huà)人自適應的主要原理。所謂說(shuō)話(huà)人自適應,是指對大訓練集上得到的模型參數進(jìn)行調整,使之對當前說(shuō)話(huà)人產(chǎn)生更好地識別效果。可以說(shuō),說(shuō)話(huà)人自適應實(shí)際上是希望通過(guò)少量數據的增強訓練(即所謂的自適應過(guò)程),使非特定人系統接近特定人系統的性能。常用的說(shuō)話(huà)人自適應方法主要有兩種:
最大后驗概率(MAP)方法和最大似然線(xiàn)性回歸(MLLR)方法。MPA算法采用基于最大后驗概率準則,具有理論上的最優(yōu)性,因此在小詞表的語(yǔ)音識別任務(wù)中具有相當好的性能。其缺點(diǎn)是對大詞匯量的任務(wù)自適應速度緩慢,無(wú)法滿(mǎn)足應用的要求。因此,當前的大詞匯量連續語(yǔ)音識別系統大多采用MLLR方法,或將MAP與MLLR結合。從評測結果來(lái)看,如果有充分的時(shí)間調整說(shuō)話(huà)人自適應模型,連續語(yǔ)音識別中的字錯誤率可以下降1至4個(gè)百分點(diǎn)。
從幾年來(lái)各參評系統采用的主要技術(shù)來(lái)看,當前語(yǔ)音識別系統中的技術(shù)嚴重趨同。幾乎所有的參評系統都采用上述框架和基本模塊,區別主要在于模塊內部的細化程度,或者把某模塊中的幾種技術(shù)做些組合。例如,采用不同的前端處理方法,對男女聲和有無(wú)噪聲的語(yǔ)音分類(lèi)處理,以及同時(shí)采用多種聲學(xué)特征和不同的搜索策略構造多個(gè)識別子系統,最后對各子系統的識別結果做一種類(lèi)似投票的表決(ROVER技術(shù)),得到最終識別結果。
由于863語(yǔ)音識別評測并不限制訓練數據的使用,各單位可以使用自備的所有數據。因此,從評測結果及各單位的研討中可以看到,訓練數據的數量和質(zhì)量對系統的性能有很大的影響。為了使評測更公平,2005年的評測中提供了一定量的統一訓練集,但規模還較小。在以后的評測中,將考慮提供大量的訓練集,希望能夠避免因訓練數據不同而造成的性能差異。
863計劃中語(yǔ)音識別評測
從2003年起,中國科學(xué)院計算技術(shù)研究所連續三年承辦863計劃中文信息處理與智能人機接口技術(shù)評測,語(yǔ)音識別評測始終是其中的一個(gè)主要分項。三年間,863語(yǔ)音識別評測受到了國內外語(yǔ)音識別研究者的關(guān)注,參加單位數逐年遞增,成為國內語(yǔ)音識別領(lǐng)域最高級別的交流平臺,在國際上也具備了相當的影響力。
2003年和2004年度語(yǔ)音識別評測采用現場(chǎng)評測方式,即各參評系統的運行在評測現場(chǎng)同時(shí)進(jìn)行。這種組織形式比較嚴格,一旦參評系統運行出現故障將無(wú)法繼續。而且,要求所有參評單位必須到場(chǎng),其成本也較高。為了避免這些問(wèn)題,2005年的863評測采用目前國際通用的網(wǎng)上評測的方法,即在網(wǎng)上發(fā)布數據,各參評單位在自己的運行環(huán)境上運行參評系統后將識別結果通過(guò)網(wǎng)絡(luò )提交給評測單位。
863語(yǔ)音識別評測最大的特色在于測試數據的選取。文本語(yǔ)料的選取采用從大規模原始語(yǔ)料庫中篩選的方法,充分考慮到了對各種韻律學(xué)特征(音節、二音子、三音子、音連關(guān)系等)、語(yǔ)法特征(句型和句法結構等)和各種領(lǐng)域、各種文體(散文、小說(shuō)、實(shí)事新聞等)的覆蓋。錄音時(shí)不是采用實(shí)驗室加噪聲,而是在完全真實(shí)的場(chǎng)景中錄制數據,并且充分考慮到了說(shuō)話(huà)人、信噪比等因素的覆蓋,在實(shí)驗的基礎上提出了真實(shí)環(huán)境中信噪比的分布模型,并在此模型的指導下錄制數據。這種以實(shí)驗和理論為依據、以算法為支撐,控制各種語(yǔ)音屬性,從而最大限度地擬合真實(shí)應用的數據采集方法,在國際上也是很有特色的。目前國際上的同類(lèi)評測,錄音場(chǎng)景多為實(shí)驗室,對各種影響因素一般只做寬泛的覆蓋,幾乎沒(méi)有按理論模型控制的方法。
863語(yǔ)音識別評測的另一個(gè)特點(diǎn)是對結果做了充分的統計分析。目前的國際評測一般除給出相應的指標外,還會(huì )做一些統計分析,而之前的國內評測卻很少這么做。從2004年開(kāi)始,863語(yǔ)音識別評測也開(kāi)始對結果進(jìn)行統計分析,而在2005年的評測中,更是采用專(zhuān)業(yè)統計學(xué)方法,采用實(shí)驗設計、假設檢驗、回歸分析、方差分析、協(xié)方差分析等一系方法對結果及影響結果的因素進(jìn)行了深入分析,對各評測單位認清自己系統的優(yōu)勢和缺點(diǎn),進(jìn)一步改進(jìn)起到了很大作用。
另外,在電話(huà)連續語(yǔ)音關(guān)鍵詞識別評測中,在2004年嘗試了以語(yǔ)義槽為單位的基于語(yǔ)法關(guān)鍵詞識別任務(wù)和評測指標,在2005年首次使用了兩個(gè)說(shuō)話(huà)人一起錄制的自然對話(huà)語(yǔ)音,更加符合真實(shí)應用的特點(diǎn),這在國際同類(lèi)評測中都是沒(méi)有的。
從評測結果看語(yǔ)音識別技術(shù)現狀
863語(yǔ)音識別評測,包括PC、電話(huà)、嵌入式設備三個(gè)語(yǔ)音通道,涉及聽(tīng)寫(xiě)機、對話(huà)查詢(xún)、命令詞識別等多種任務(wù),基本上涵蓋了當前語(yǔ)音識別的主要研究和應用方向。而參評的又大都是國內長(cháng)期進(jìn)行該項研究、有較高水平的單位和系統,因此,無(wú)論是采用的方法還是識別的效果,本次評測都可以真實(shí)反映出國內語(yǔ)音識別技術(shù)的現狀。這里結合2004年的評測,對評測結果進(jìn)行分析。之所以選擇2004年的評測結果,是因為它的評測分項最全,幾乎覆蓋了語(yǔ)音識別的各種應用。
1. 識別結果的評價(jià)
評測的主要目標就是通過(guò)對識別結果的評價(jià)、分析了解參評系統的性能的和語(yǔ)音技術(shù)的現狀。因此,制訂有效的、能夠真實(shí)反映出系統性能的評價(jià)指標也是很重要的研究任務(wù)。
對于大詞匯量連續語(yǔ)音識別來(lái)說(shuō),國際上通用的指標是文字錯誤率(對于英語(yǔ),文字指單詞; 對于漢語(yǔ),文字指字,下同)。其基本思想為采用動(dòng)態(tài)規劃算法將標準答案與識別結果對齊,以得到“正確文字數”、“替換文字數”、“插入文字數”、“刪除文字數”四項參數,然后計算文字錯誤率。
錯誤文字數 = 替換 + 插入 + 刪除文字數
文字錯誤率 = 錯誤文字數 / 原文答案文字數
下面給出一個(gè)例子:
LAB: 新 增 四 百 萬(wàn) 千 瓦 時(shí) 的 強 大 電 流 輸 入 云 南 的 電 網(wǎng)
REC: 新 增 四 百 花 錢(qián) 忙 時(shí) 的 槍 打 電 流 于 樹(shù) 綠 云 南 電 網(wǎng)
C C C C N N N C C N N C C I N N C C D C C
其中,LAB是標準答案,REC是識別結果,上面的格式是根據編輯距離最小對齊的結果,第三行標記了各類(lèi)文字,C表示正確文字,N表示替換文字,I表示插入文字,D表示刪除文字。
2004年863語(yǔ)音識別評測中的電話(huà)連續語(yǔ)音識別評測分項采用的主要指標是語(yǔ)義槽識別正確率,即用語(yǔ)料文本解析得到的標準答案和識別結果相比較,完全匹配的槽認為是識別正確的,定義槽識別正確率為:
槽識別正確率 = 正確識別的槽的個(gè)數 / 標準答案中槽的總數
對于嵌入式設備命令詞識別,由于是孤立詞識別,因此采用命令詞識別正確率即可:
命令詞識別正確率 = 正確識別的命令詞數 / 命令詞總數
2. 識別系統性能
對各系統給出的識別結果計算上述指標,得到對各系統識別性能的評價(jià)。表1給出了每個(gè)分項中識別效果最好的系統的指標,以及前三名系統的平均指標。為了統一,將電話(huà)連續語(yǔ)音識別中的槽識別正確率和嵌入式設備命令詞識別中的命令詞識別正確率統稱(chēng)為正確率。對桌面(這里指PC,以下同)連續語(yǔ)音識別,采用文字正確率,定義為(目前研究者對文字正確率定義稍有不同,本文中一律以下面的定義為準):
文字正確率 = 1 - 文字錯誤率
表中的最高正確率基本可以代表該分項的最高水平,前三名的正確率均值可以一定程度上反映該分項的平均水平,而前三名正確率的方差可以反映該分項中各系統的性能差異程度。
從表中可以看到,桌面連續語(yǔ)音識別分項中,漢語(yǔ)的識別效果遠遠好于英語(yǔ)(文字正確率最多相差20個(gè)百分點(diǎn))。其原因顯然在于國內對漢語(yǔ)語(yǔ)音識別的研究比英語(yǔ)多而且深入。另外,英語(yǔ)訓練語(yǔ)料的相對缺乏,也是一個(gè)重要原因。
在采用了語(yǔ)法限制的語(yǔ)義槽識別任務(wù)和槽識別正確率作為評測指標后,電話(huà)連續語(yǔ)音的槽識別正確率較低。事實(shí)上,由于電話(huà)語(yǔ)音的錄制環(huán)境為辦公室環(huán)境,其噪音比桌面語(yǔ)音要小得多,所以正確率較低的原因主要在于對語(yǔ)法的處理和槽識別正確率較低。
嵌入式設備命令詞識別的正確率與桌面語(yǔ)音字正確率大致相當。一方面,連續語(yǔ)音識別要比孤立詞識別困難,另一方面,嵌入式設備的語(yǔ)音通道和計算資源都比PC差得多,從結果可以看出,這兩方面的因素基本抵消。
從各分項前三名的正確率方差可以看出,漢語(yǔ)桌面連續語(yǔ)音識別和嵌入式設備命令詞分項中各系統的性能差異較小,而英語(yǔ)桌面連續語(yǔ)音識別,特別是一倍實(shí)時(shí)任務(wù)中各系統性能差異較大。這是因為當前語(yǔ)音識別的研究重點(diǎn)在于前者,研究者較多,研究也比較深入,而英語(yǔ)的識別相對來(lái)說(shuō)研究者較少。
3. 影響系統識別性能的因素
從上面的識別結果評價(jià)可以看出,對真實(shí)噪音環(huán)境下錄制的語(yǔ)音數據,當前的語(yǔ)音識別系統識別正確率偏低,還很難達到實(shí)用。
從語(yǔ)音識別產(chǎn)生以來(lái),噪音一直是影響識別效果的主要因素。為了分析噪音對識別的影響,將評測數據按信噪比(SNR)分段,從參評系統選取三個(gè),分別計算其在各段內的識別正確率,可以看出,識別正確率基本上隨著(zhù)SNR的增大而提高,SNR在20dB以上的數據正確率比SNR在5~10dB的數據高近30個(gè)百分點(diǎn)。對桌面連續語(yǔ)音識別的其他分項和嵌入式命令詞識別的結果分析也得到類(lèi)似的結果。
對于電話(huà)連續語(yǔ)音識別來(lái)說(shuō),由于錄制環(huán)境是辦公室真實(shí)環(huán)境,因此噪音并不是影響性能的主要因素。電話(huà)連續語(yǔ)音識別分為5個(gè)子領(lǐng)域,每個(gè)子領(lǐng)域各有一套語(yǔ)法。評測句子由語(yǔ)法生成的有效成分在前后加上任意長(cháng)的填充詞(filler)構成,如語(yǔ)法生成的句子為“從天安門(mén)到中關(guān)村怎么坐公交車(chē)”,而實(shí)際錄制的句子是“你好,請問(wèn)從天安門(mén)到中關(guān)村怎么坐公交車(chē),可以查到嗎?”,其中的“你好,請問(wèn)”和“可以查到嗎”就是filler。由分析可以發(fā)現,不同領(lǐng)域內的槽識別正確率相差很大。這主要有兩個(gè)原因,一是不同領(lǐng)域的語(yǔ)法復雜度不同,二是不同領(lǐng)域內有filler的句子所占比例不同。為了進(jìn)一步衡量filler對識別的影響,選取三個(gè)識別系統,將有filler的句子和沒(méi)有filler的句子分別計算識別率,統計結果如圖2所示。從圖中可以看出,filler對識別的影響是相當大的,無(wú)filler的句子比有filler的句子識別正確率可以高幾十個(gè)百分點(diǎn)。
從上面的介紹可以看到,國內語(yǔ)音識別研究發(fā)展迅速,識別性能日益提高,
但在對真實(shí)環(huán)境下錄制的數據,特別是信噪比較低的情況下,識別性能還無(wú)法達到實(shí)用要求。對于桌面連續語(yǔ)音和嵌入式設備上的孤立詞識別,對噪音的魯棒性不高是系統面臨的主要問(wèn)題。對于電話(huà)查詢(xún)系統來(lái)說(shuō),對語(yǔ)義的解析和無(wú)關(guān)語(yǔ)句的處理還存在一定困難。另外,對非朗讀的自然語(yǔ)音,如對話(huà)、會(huì )議內容的識別,對電視廣播節目?jì)热莸淖R別或檢索近年來(lái)吸引了越來(lái)越多研究者的注意,國外的一些評測機構也組織了這方面的評測,863語(yǔ)音識別評測也在考慮增加相應的項目。總之,863語(yǔ)音識別評測將繼續針對這些任務(wù),針對噪音、方言、自然語(yǔ)音等關(guān)鍵問(wèn)題構建評測語(yǔ)料庫,開(kāi)展評測,提供結果分析,組織討論交流,以促進(jìn)語(yǔ)音識別技術(shù)的發(fā)展。
計算機世界網(wǎng)(www.ccw.com.cn)
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
瑞金市|
尚义县|
永平县|
渭源县|
张家港市|
蛟河市|
临泽县|
嵊州市|
澄江县|
三明市|
六枝特区|
昔阳县|
屯昌县|
沈阳市|
汉中市|
万荣县|
农安县|
阿拉善右旗|
高密市|
噶尔县|
措勤县|
剑阁县|
青铜峡市|
湟源县|
岳池县|
信宜市|
庆云县|
高淳县|
方正县|
天祝|
正安县|
汝南县|
新巴尔虎右旗|
昌黎县|
富蕴县|
沈阳市|
华安县|
仲巴县|
翁牛特旗|
江北区|
普定县|
http://444
http://444
http://444
http://444
http://444
http://444