首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

語(yǔ)音識別 理想與現實(shí)的距離

2007/01/19

  讓機器能夠聽(tīng)懂人類(lèi)的語(yǔ)言,一直以來(lái)都是人類(lèi)夢(mèng)寐以求的愿望。在今天,語(yǔ)音識別到底離我們有多遠?

  很小的時(shí)候愛(ài)看科幻小說(shuō),在那樣的小說(shuō)中,曾經(jīng)看到過(guò)科幻小說(shuō)家預言未來(lái)的人會(huì )長(cháng)成什么樣子。按照達爾文的進(jìn)化理論,未來(lái)的人腦袋將會(huì )變得極其之大,而四肢則漸漸退化。因為人類(lèi)通過(guò)聰明的大腦,逐步讓四肢從繁瑣的工作中解放出來(lái),最終就會(huì )變成腦袋龐大而四肢退化的模樣。而語(yǔ)音識別(Speech Recognition)就是在這種科幻進(jìn)程中解放我們雙手的一項重要技術(shù)。

  讓機器直接能夠聽(tīng)懂人類(lèi)的語(yǔ)言,一直以來(lái)都是人類(lèi)夢(mèng)寐以求的愿望。可是語(yǔ)音識別技術(shù)雖行之有年, 但進(jìn)展卻似乎緩慢。當記者走進(jìn)中科院聲學(xué)所的中科信利語(yǔ)音實(shí)驗室,才切身體會(huì )到,其實(shí)語(yǔ)音識別離我們并不遙遠。

哼唱識別系統

  不久前,中科院聲學(xué)所的中科信利語(yǔ)音實(shí)驗室開(kāi)發(fā)出了一種“哼唱檢索系統”,無(wú)需鼠標鍵盤(pán),對著(zhù)話(huà)筒哼唱出歌曲的旋律就可以檢索到哼唱歌曲的曲名。當記者在中科信利語(yǔ)音實(shí)驗室的會(huì )議室,面對屏幕,拿著(zhù)話(huà)筒哼起一段鄧麗君的《甜蜜蜜》的旋律時(shí),大概只用了6~10秒,檢索系統就自動(dòng)檢索出來(lái)了所哼唱旋律的歌名,并附上了完整的歌詞。

  “哼唱檢索系統是通過(guò)旋律匹配進(jìn)行檢索的。”博士畢業(yè)論文專(zhuān)門(mén)研究哼唱檢索系統的語(yǔ)音助理研究員李明介紹說(shuō)。哼唱檢索系統根據歌曲旋律的走勢來(lái)匹配檢索,而不是通過(guò)音調。因為音調的基準會(huì )有所不同,這就大大降低了檢索識別的適用性。所以,對于哼唱檢索系統的使用者而言,哼唱節奏的快慢,以及記得歌詞與否,都對檢索識別沒(méi)有影響。正是因為此,這套系統在由美國伊利諾斯大學(xué)負責主辦的國際音樂(lè )信息檢索評測比賽(MIREX)中,以92%的準確度獲得了第一名的好成績(jì)。

  任何系統都不能只存在于實(shí)驗室中,哼唱檢索系統業(yè)理所當然要走出實(shí)驗室。“我們的哼唱檢索系統已經(jīng)在河北等地的移動(dòng)彩鈴業(yè)務(wù)中應用了。”中科信利語(yǔ)音實(shí)驗室研究室主任顏永紅說(shuō)。“用戶(hù)通過(guò)哼唱一段旋律,就能查找到自己聽(tīng)過(guò)卻不知道名稱(chēng)的歌曲或彩鈴,然后進(jìn)行點(diǎn)播和下載。這種大規模的商業(yè)應用,已經(jīng)進(jìn)入了成熟階段。”顏永紅還表示,實(shí)驗室正在著(zhù)手和互聯(lián)網(wǎng)幾大音樂(lè )內容提供商合作,相信在不久的將來(lái),就可以實(shí)現在互聯(lián)網(wǎng)上哼唱一段旋律來(lái)檢索歌曲名稱(chēng)。

提高識別率

  對于中科信利語(yǔ)音實(shí)驗室研究出來(lái)的這套哼唱識別系統,還有一個(gè)更好的應用前景就是在KTV等場(chǎng)所的歌曲檢索。對于愛(ài)好唱歌的人而言,一定都有過(guò)這樣的經(jīng)歷: 往往熟悉一首歌曲的旋律,卻記不住歌曲的名稱(chēng)。特別是在KTV點(diǎn)唱時(shí),K友常常會(huì )遇到這樣的問(wèn)題,想唱卻又找不到歌名。哼唱檢索系統正好解決了這樣的問(wèn)題。試想,當有一天,我們在KTV中點(diǎn)歌時(shí),不必再通過(guò)繁瑣的手動(dòng)操作界面,而只需要通過(guò)口頭來(lái)完成,那種感覺(jué)又豈是方便兩個(gè)字能簡(jiǎn)單概括的。而這種搜索模式的實(shí)現,其實(shí)只要在KTV的點(diǎn)歌系統中嵌入哼唱檢索系統的技術(shù)就可以了。

  但是,中科信利語(yǔ)音實(shí)驗室開(kāi)發(fā)出來(lái)的哼唱檢索系統對哼唱的環(huán)境是有所要求的。“我們的檢索環(huán)境要求是要相對安靜的。”李明這樣介紹說(shuō)。那么,對于KTV中過(guò)于嘈雜的語(yǔ)音環(huán)境,哼唱檢索系統,如何發(fā)揮他的威力呢?

  “目前語(yǔ)音識別技術(shù)需要解決的問(wèn)題,一個(gè)是對噪音環(huán)境的處理,一個(gè)是對不同口音的識別,再一個(gè)就是要不斷提出好的算法。”顏永紅這樣對記者說(shuō)到。語(yǔ)音識別技術(shù)的基本原理就是對輸入的語(yǔ)音信號進(jìn)行分析,抽取語(yǔ)音特征參數與存儲器中的語(yǔ)音模板的參數進(jìn)行匹配識別。因此,語(yǔ)音識別技術(shù)不僅對識別的背景、噪聲干擾有要求,同時(shí),對說(shuō)話(huà)者的清晰程度、連貫程度,以及是否口語(yǔ)化是否帶口音,也都有要求。這些正是導致語(yǔ)音識別技術(shù)識別率不高的主要原因,也是導致語(yǔ)音識別技術(shù)一直沒(méi)有能夠大規模展開(kāi)應用的瓶頸。

  如何提高識別率一直都是語(yǔ)音識別技術(shù)不斷挑戰的問(wèn)題。基于目前的語(yǔ)音識別技術(shù),語(yǔ)音識別的應用,應該是相對小眾的,而且面對特殊人群的。例如,某一領(lǐng)域,相對安靜背景的語(yǔ)音識別的應用,又或,就目前而言,語(yǔ)音識別技術(shù)對于盲人群體的作用與幫助要大大高于一般的正常人。

語(yǔ)音識別搜索

  語(yǔ)音識別技術(shù)一個(gè)很有效的應用,就是語(yǔ)音識別搜索。“語(yǔ)音識別搜索主要有三種方式: 原聲搜索、旋律匹配搜索和語(yǔ)音搜索。”中科信利語(yǔ)音實(shí)驗室副研究員趙慶衛博士告訴記者。原聲搜索是針對原始聲音進(jìn)行完整匹配的搜索。除人聲外,其他周遭的一切聲音都可以針對原聲搜索出其位置。而哼唱檢索系統就是典型的旋律匹配搜索。至于語(yǔ)音搜索,是指針對某一特定人員的語(yǔ)音進(jìn)行篩選搜索的方式。

  在信息瘋狂膨脹的時(shí)代,對于浩瀚信息中的有效資源搜索毫無(wú)疑問(wèn)是相當重要的。而且,信息已經(jīng)不單純是以往的純文本,而是逐步發(fā)展到了音頻、視頻領(lǐng)域。以往單純通過(guò)音頻、視頻文件的文本標簽來(lái)搜索音、視頻文件已經(jīng)不足以滿(mǎn)足用戶(hù)的需求。通過(guò)語(yǔ)音識別對音、視頻內容的搜索已經(jīng)開(kāi)始廣泛應用。

  美國的Blinkx就是最先開(kāi)始應用語(yǔ)音識別進(jìn)行內容搜索的網(wǎng)站之一。而在國內,openv.tv也露出了做專(zhuān)業(yè)的電視及視頻搜索引擎的意圖。當文字搜索已經(jīng)發(fā)展到幾乎沒(méi)有上升空間的時(shí)候,微軟、Google這些技術(shù)巨頭也開(kāi)始瞄準未來(lái)的語(yǔ)音、視頻搜索市場(chǎng)。

未來(lái)無(wú)限大

  語(yǔ)音識別芯片的應用范圍其實(shí)十分廣闊: 電話(huà)通信中的語(yǔ)音撥號、汽車(chē)的語(yǔ)音控制、工業(yè)控制及醫療領(lǐng)域的人機語(yǔ)音交互界面、個(gè)人數字助理(Personal Digital Assistant,PDA)的語(yǔ)音交互界面、語(yǔ)音智能玩具、家電的語(yǔ)音遙控等。解放雙手,豐富溝通,是在這些領(lǐng)域應用的共性。

  除此之外,語(yǔ)音識別還可以給我們帶來(lái)更多的便利。“語(yǔ)音識別的關(guān)鍵一個(gè)是發(fā)音評估,一個(gè)是內容識別。”趙慶衛說(shuō)。除了哼唱檢索系統以外,中科信利語(yǔ)音實(shí)驗室在音頻水印、發(fā)音糾正、語(yǔ)種識別等方面都有成果。音頻水印是以編碼方式嵌入音、視頻文件,主要應用于音、視頻文件的版權保護、保密通信以及廣播監聽(tīng)。發(fā)音糾正軟件可以對說(shuō)話(huà)人的發(fā)音進(jìn)行評估和分析,特別有助與用戶(hù)的語(yǔ)言學(xué)習。據趙慶衛介紹,這種發(fā)音糾正已經(jīng)用于國內部分地區推廣普通話(huà)的進(jìn)程中了。

  “市場(chǎng)每年;都在變大。”談及語(yǔ)音識別市場(chǎng)的未來(lái)時(shí),顏永紅如是說(shuō)。根據半導體行業(yè)的摩爾定律,硬件成本過(guò)高是導致語(yǔ)音識別技術(shù)無(wú)法在家電等領(lǐng)域應用的主要原因。“早在2002年,技術(shù)上就已經(jīng)實(shí)現在電話(huà)上應用語(yǔ)音識別技術(shù)了,但是卻只能用在部分高端手機上。”顏永紅說(shuō)。

  中科信利語(yǔ)音實(shí)驗室目前一直在和致力于芯片技術(shù)的廠(chǎng)商合作,從而有效地解決了語(yǔ)音處理過(guò)程中遇到的噪聲等問(wèn)題,提高了聲學(xué)語(yǔ)音傳達的準確性,與語(yǔ)音識別軟件技術(shù)形成優(yōu)勢互補。

  “希望10年到20年的時(shí)間內,語(yǔ)音識別技術(shù)會(huì )有長(cháng)足的發(fā)展。”顏永紅充滿(mǎn)期盼地說(shuō)道。也許過(guò)不了多久,面貌煥然一新、同時(shí)蘊藏巨大商機的語(yǔ)音識別應用熱潮,將會(huì )徹底改變人們的思維定勢,其實(shí)理想和現實(shí)的距離并不如我們想象的那么遙遠。

計算機世界網(wǎng)



相關(guān)鏈接:
語(yǔ)音識別技術(shù)前景廣闊 2007-01-16
電話(huà)銀行系統可識別用戶(hù)語(yǔ)音 2006-11-03
語(yǔ)音自助服務(wù)并不僅僅是技術(shù) 2006-11-02
評論:語(yǔ)音識別適合網(wǎng)絡(luò )應用 2006-10-24
CRM語(yǔ)音業(yè)務(wù)需求呈現快速增長(cháng) 2006-08-21

分類(lèi)信息:        
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 玉门市| 宜兴市| 大余县| 衡南县| 沂水县| 会同县| 崇阳县| 柳州市| 巫溪县| 尚志市| 堆龙德庆县| 江安县| 泸溪县| 永靖县| 南通市| 上虞市| 宿州市| 东安县| 策勒县| 辽阳市| 金山区| 乌兰浩特市| 扎囊县| 土默特左旗| 尤溪县| 崇礼县| 尖扎县| 怀化市| 军事| 尼玛县| 綦江县| 德安县| 重庆市| 衡南县| 突泉县| 庄浪县| 库伦旗| 平昌县| 乌什县| 东乌珠穆沁旗| 仪陇县| http://444 http://444 http://444 http://444 http://444 http://444