首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

語(yǔ)音識別的發(fā)展現狀

俞鐵城 2005/03/03

語(yǔ)音識別基礎

  讓機器聽(tīng)懂人類(lèi)的語(yǔ)音,這是人們長(cháng)期以來(lái)夢(mèng)寐以求的事情。語(yǔ)音識別是一門(mén)交叉學(xué)科,關(guān)系到多學(xué)科的研究領(lǐng)域,不同領(lǐng)域上的研究成果都對語(yǔ)音識別的發(fā)展作了貢獻。
語(yǔ)音識別技術(shù)就是讓機器通過(guò)識別和理解過(guò)程把語(yǔ)音信號轉變?yōu)橄鄳奈谋净蛎畹母呒夹g(shù)。

  計算機語(yǔ)音識別過(guò)程與人對語(yǔ)音識別處理過(guò)程基本上是一致的。目前主流的語(yǔ)音識別技術(shù)是基于統計模式識別的基本理論。一個(gè)完整的語(yǔ)音識別系統可大致分為三部分:

  (1)語(yǔ)音特征提取:目的是從語(yǔ)音波形中提取隨時(shí)間變化的語(yǔ)音特征序列。

  (2)聲學(xué)模型與模式匹配(識別算法):聲學(xué)模型是識別系統的底層模型,并且是語(yǔ)音識別系統中最關(guān)鍵的一部分。聲學(xué)模型通常由獲取的語(yǔ)音特征通過(guò)訓練產(chǎn)生,目的是為每個(gè)發(fā)音建立發(fā)音模板。在識別時(shí)將未知的語(yǔ)音特征同聲學(xué)模型(模式)進(jìn)行匹配與比較,計算未知語(yǔ)音的特征矢量序列和每個(gè)發(fā)音模板之間的距離。聲學(xué)模型的設計和語(yǔ)言發(fā)音特點(diǎn)密切相關(guān)。聲學(xué)模型單元大小(字發(fā)音模型、半音節模型或音素模型)對語(yǔ)音訓練數據量大小、系統識別率,以及靈活性有較大影響。

  (3)語(yǔ)義理解:計算機對識別結果進(jìn)行語(yǔ)法、語(yǔ)義分析。明白語(yǔ)言的意義以便作出相應的反應。通常是通過(guò)語(yǔ)言模型來(lái)實(shí)現。

語(yǔ)音識別技術(shù)的應用

  語(yǔ)音識別過(guò)程實(shí)際上是一種認識過(guò)程。就像人們聽(tīng)語(yǔ)音時(shí),并不把語(yǔ)音和語(yǔ)言的語(yǔ)法結構、語(yǔ)義結構分開(kāi)來(lái),因為當語(yǔ)音發(fā)音模糊時(shí)人們可以用這些知識來(lái)指導對語(yǔ)言的理解過(guò)程。對機器來(lái)說(shuō),識別系統也要利用這些方面的知識,只是鑒于語(yǔ)音信號的多變性、動(dòng)態(tài)性、瞬時(shí)性,語(yǔ)音識別技術(shù)與人類(lèi)的大腦還有一定的差距。因此在語(yǔ)言識別技術(shù)選擇,其應用模式和系統開(kāi)發(fā)上,都需要專(zhuān)業(yè)的設計和調試,以實(shí)現最好的應用效果。

  1996年9月,Charles Schwab開(kāi)通了首個(gè)大規模商用語(yǔ)音識別應用系統:股票報價(jià)系統。該系統有效地提高了服務(wù)質(zhì)量和客戶(hù)滿(mǎn)意度,并減少了呼叫中心的費用。不久,Schwab又開(kāi)通了語(yǔ)音股票交易系統。

  美國主要電信運營(yíng)商Sprint的PCS部門(mén)以卓越和有創(chuàng )新的客戶(hù)服務(wù)著(zhù)稱(chēng)。自2000年來(lái)為客戶(hù)開(kāi)通了語(yǔ)音驅動(dòng)系統,提供客戶(hù)服務(wù)、語(yǔ)音撥號、查號和更改地址等業(yè)務(wù)。2001年9月開(kāi)通的可以自然方式對話(huà)的咨詢(xún)系統,更實(shí)現了以自然、開(kāi)放的詢(xún)問(wèn)方式實(shí)時(shí)獲得所需要的信息。

  Bell Canada,加拿大最大的電信運營(yíng)商,也擁有多個(gè)語(yǔ)音驅動(dòng)系統,提供從客戶(hù)服務(wù),增值業(yè)務(wù)和資訊服務(wù)多種功能。這些系統不但減少了用戶(hù)的投訴,也為無(wú)線(xiàn)網(wǎng)絡(luò )服務(wù)增值,增強了客戶(hù)的忠誠度并開(kāi)辟了新的收入來(lái)源。

  仔細分析這些案例不難發(fā)現,一個(gè)成功的語(yǔ)音應用首先是基于詳細準確的用戶(hù)需求調查。只有詳細了解客戶(hù)需求,才能根據需要選用不同類(lèi)型的產(chǎn)品。目前市場(chǎng)上的語(yǔ)音識別產(chǎn)品基本可分為:

  特定人/非特定人:是按照聲學(xué)模型建立的方式來(lái)劃分。特定人識別的聲學(xué)模型是針對某一特定用戶(hù)訓練的。一般來(lái)說(shuō)用戶(hù)需要先訓練系統,然后才能識別該用戶(hù)的發(fā)音。而非特定人識別的聲學(xué)模型是針對某一種特定的語(yǔ)言來(lái)訓練的,發(fā)音人不需要訓練既可使用。雖然在建立模型時(shí)需要大量的語(yǔ)料,對用戶(hù)來(lái)說(shuō)卻提供了更大方便,他們甚至不需要了解該過(guò)程。

  嵌入式/服務(wù)器模式:嵌入式是將語(yǔ)言識別軟件及模型,寫(xiě)在設備(如手機)的存儲器里,識別過(guò)程在終端完成。在服務(wù)器模式,終端只負責收集和傳導語(yǔ)音信號,由服務(wù)器負責完成識別。因此,對于大規模,多用戶(hù)和有大量識別需求的系統,服務(wù)器模式提供了有效的方式。

  目前運營(yíng)商和企業(yè)用戶(hù)的需求多數適合采用非特定人服務(wù)器模式的服務(wù)。例如上面提到的Charles Schwab,SprintPCS和Bell Canada都選用了Nuance Communications提供的語(yǔ)音識別軟件。加之專(zhuān)業(yè)的系統集成方案及Nuance技術(shù)服務(wù)所提供的良好的語(yǔ)音用戶(hù)界面設計和后期優(yōu)化,使得應用系統獲得了很高的客戶(hù)滿(mǎn)意度。在很多方面超過(guò)了接線(xiàn)員。

語(yǔ)音識別應用系統的相關(guān)技術(shù)

  在語(yǔ)音識別應用領(lǐng)域,有許多相關(guān)技術(shù)直接影響著(zhù)客戶(hù)的最終體驗并關(guān)系到應用系統的使用效果,也就是自動(dòng)化率(automation rate),即系統毋須人工干預獨自完成的比例。例如端點(diǎn)檢測及相關(guān)問(wèn)題,噪音環(huán)境下的語(yǔ)音處理,系統結構,對口音的適應性及語(yǔ)音界面的設計,都是語(yǔ)音識別整體應用系統需要考慮的。在本系列隨后文章中,將分別為就這些問(wèn)題作一些介紹。后面稿件,我們會(huì )圍繞語(yǔ)音識別應用涉及的相關(guān)技術(shù)進(jìn)行介紹。

通訊世界(www.tele.com.cn)


相關(guān)鏈接:
聽(tīng)話(huà)要聽(tīng)音—情感語(yǔ)音處理技術(shù) 2005-02-04
"得意"口語(yǔ)對話(huà)系統開(kāi)發(fā)包與"得意"智能互動(dòng)信息服務(wù) 2004-11-25
"得意"聲紋識別技術(shù)常見(jiàn)問(wèn)題解答 2004-11-25
語(yǔ)音技術(shù)應用的現狀和未來(lái) 2004-09-30
“得意”聲紋加密鑰匙常見(jiàn)問(wèn)題解答 2004-08-31

分類(lèi)信息:     文摘   技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 墨玉县| 竹北市| 佛山市| 太康县| 吉木萨尔县| 抚宁县| 仁布县| 广州市| 无棣县| 长子县| 宜兰县| 双牌县| 衡南县| 洛浦县| 枣强县| 岳阳县| 安塞县| 任丘市| 织金县| 若羌县| 新竹县| 达尔| 容城县| 武宣县| 申扎县| 徐汇区| 上杭县| 滕州市| 色达县| 星子县| 南汇区| 昌平区| 万源市| 安徽省| 嘉义市| 安仁县| 姜堰市| 玉树县| 余庆县| 穆棱市| 嘉义市| http://444 http://444 http://444 http://444 http://444 http://444