首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

擒獲未來(lái):下一代的語(yǔ)音識別技術(shù)

何生 2004/02/17

  機器人和人進(jìn)行交談,對科幻電影愛(ài)好者來(lái)說(shuō)可能是再自然不過(guò)的事情了;相反,如果他們不能交談,倒會(huì )讓人覺(jué)得是咄咄怪事。可對于真正研究人機自然交流的全世界科學(xué)家來(lái)說(shuō),為了實(shí)現這一看似簡(jiǎn)單的的夢(mèng)想所要解決的難題可能遠遠超過(guò)讓人登上火星。他們已經(jīng)努力了30多年,或多或少,縮短了人們和這一夢(mèng)想的距離。是否需要再等另一個(gè)30年呢?

  “也許不需要那么長(cháng),”美國喬治亞理工學(xué)院的電子計算機工程系教授Fred Juang說(shuō),“下一代的語(yǔ)音識別機可能在五到十年內成為現實(shí)。”Juang教授是語(yǔ)音識別研究領(lǐng)域的專(zhuān)家,他曾參與自動(dòng)電話(huà)接線(xiàn)語(yǔ)音識別技術(shù)的開(kāi)發(fā)。現在這一技術(shù)已經(jīng)廣泛的用于各行業(yè)。

  他在正在西雅圖召開(kāi)的美國科學(xué)促進(jìn)協(xié)會(huì )(AAAS)的年會(huì )上說(shuō),為了制造出能夠真正和人自然交流的機器來(lái),需要對現在的語(yǔ)音識別技術(shù)所依賴(lài)的理論進(jìn)行根本的改造。

  現在的語(yǔ)音識別技術(shù)基本上是由機器對人的語(yǔ)音進(jìn)行信號處理,然后將其與預先設計的文字數據庫進(jìn)行比對,將與收到的語(yǔ)音信號最相匹配的文字挑選出來(lái),然后按照預先設定的一些語(yǔ)法規則排列,從而實(shí)現從語(yǔ)音到文字的轉變。如果得到的文本和人原來(lái)表達的意思相同或相近,那么,我們就可以說(shuō),機器完成了語(yǔ)音識別。完成這一過(guò)程的主要數學(xué)基礎就是一種叫做隱含馬爾可夫模型的算法。

  研究者們發(fā)現,基于這種算法的語(yǔ)音識別技術(shù)對于一些簡(jiǎn)單的人機對話(huà)能夠達到不錯的效果,但對于達到自如的相互交談來(lái)說(shuō)還遠遠不夠。通常來(lái)說(shuō),對于設定的場(chǎng)景,設定主題的對話(huà),語(yǔ)音識別機會(huì )有比較好的表現效果。例如,定票服務(wù),電話(huà)接駁,聽(tīng)寫(xiě)等等。實(shí)際上,語(yǔ)音識別技術(shù)在這些方面的應用已經(jīng)日漸廣泛。特別是隨著(zhù)移動(dòng)通信的發(fā)展,諸如語(yǔ)音撥號,語(yǔ)音郵件已經(jīng)開(kāi)始或者將要開(kāi)始進(jìn)入應用領(lǐng)域。但是,困擾語(yǔ)音識別多年的根本性問(wèn)題仍然沒(méi)有得到解決。華盛頓大學(xué)的瑪麗·奧斯騰多夫說(shuō)道。一個(gè)重要的方面是,目前的人機交流仍然出于一種非自然的,非談話(huà)的狀態(tài)。“我們會(huì )時(shí)刻注意到,我們是在和機器,而不是和人在說(shuō)話(huà),”她說(shuō)。簡(jiǎn)而言之,你無(wú)法期待它完全像人一樣反應。一旦你想要和它聊天一樣說(shuō)話(huà),它就無(wú)法應對了。

  人講話(huà)中經(jīng)常出現的停頓,重復,發(fā)音不清,“嗯”,“啊”,等等,對機器來(lái)說(shuō)無(wú)異于一場(chǎng)惡夢(mèng)。再考慮到方言,口音的影響,語(yǔ)音識別機的出錯率往往讓任何一個(gè)使用者喪失信心。

  另一方面的挑戰是,人講話(huà)往往并非在非常安靜的環(huán)境,外界環(huán)境的噪聲,其他人的插話(huà),等等,會(huì )極大影響語(yǔ)音識別的準確性。正是由于這種環(huán)境對聲音的扭曲和人類(lèi)交談的隨意性的特點(diǎn),使得語(yǔ)音識別準確率的提高困難重重。

  科學(xué)家們嘗試了各種辦法,包括設計各種新算法,改進(jìn)受話(huà)麥克風(fēng)的設計,以及開(kāi)發(fā)具有學(xué)習和糾錯能力的識別機,等等。試驗已經(jīng)證明,通過(guò)改進(jìn)受話(huà)麥克風(fēng)的設計,可以比較明顯的“過(guò)濾”噪音,提高識別的質(zhì)量。但這還遠遠不夠。而開(kāi)發(fā)具有學(xué)習和糾錯能力的識別機還處于起步階段。而另外一種,更加前沿的探索則是,使語(yǔ)音識別機具有人類(lèi)的“常識”。通過(guò)賦予機器人類(lèi)語(yǔ)言的語(yǔ)義學(xué)知識,語(yǔ)法知識,模擬人識別語(yǔ)音的過(guò)程,從而企望達到更好的識別率和更自然的交流。

  Juang所說(shuō)的下一代語(yǔ)音識別機正是這一前沿探索之一。

  他說(shuō),當人們在交談時(shí),往往對某些指稱(chēng)的內容已經(jīng)有了共識。例如,如果一群電子工程師在交談時(shí),他們可能會(huì )使用“它”來(lái)指代剛剛談到的歐姆定律。但對機器來(lái)說(shuō),卻完全不知道它指稱(chēng)為何,更不用說(shuō)理解其真正含義了。“如果每一次討論時(shí)都需要對其進(jìn)行指定的話(huà),交流就會(huì )變得極其笨拙了。”他說(shuō)。“能夠理解上下文中的指稱(chēng)對自然語(yǔ)言交流來(lái)說(shuō)是關(guān)鍵的。如果機器能作到這點(diǎn),就能夠和人自然的交流了。”他設想一套框架,由一些所謂的“信息探測器”組成,旨在收集,分析話(huà)音中的“意思”,而非簡(jiǎn)單的字詞。這種識別機將能夠自己學(xué)習,能夠像人一樣,在沒(méi)聽(tīng)懂時(shí)說(shuō):“我沒(méi)聽(tīng)懂”。要求進(jìn)一步說(shuō)明。

  而要實(shí)現這一設想,Juang認為需要研究新的,超越隱含馬爾可夫模型的算法。而實(shí)際上,包括他在內的世界各國的不少研究者正在這方面努力。“我們正處在發(fā)展新模式的起步階段,可以說(shuō),我們已經(jīng)有了所需框架的百分之六十了。其它的一些問(wèn)題并不是不可解決,”Juang說(shuō)。

  也許。

  但剩下的百分四十的部分也許不像看起來(lái)的那么簡(jiǎn)單。語(yǔ)音技術(shù)發(fā)展的經(jīng)驗似乎表明,每當研究者前進(jìn)一步,離最終的目標似乎就“似近實(shí)遠”。我們對基本問(wèn)題——例如人的語(yǔ)音識別過(guò)程——的了解越深入,讓我們感到困惑無(wú)力的地方似乎也越多。Juang和許多的同行是樂(lè )觀(guān)派,不過(guò)可能也有同樣數量的其它研究者沒(méi)有這么樂(lè )觀(guān).“也許,在我們真正了解人自身識別語(yǔ)言的全部秘密之前,我們只能接受不那么像人的機器語(yǔ)音識別。”微軟研究院的阿塞羅說(shuō).

新浪科技(tech.sina.com.cn)


相關(guān)鏈接:
VoPromote語(yǔ)音平臺詮釋VoiceXML精髓 2004-01-17
淺談ASR和TTS技術(shù)在CTI中的應用 2004-01-02
語(yǔ)音識別前景如何? 2003-12-06
語(yǔ)音技術(shù)成為主流 2003-11-27
電話(huà)語(yǔ)音識別系統流程設計 2003-11-20

分類(lèi)信息:     文摘   技術(shù)_語(yǔ)音識別_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 连城县| 泌阳县| 浙江省| 大庆市| 嫩江县| 米脂县| 当涂县| 博白县| 贡嘎县| 临颍县| 拉孜县| 石嘴山市| 江源县| 徐州市| 鸡东县| 新宾| 腾冲县| 五华县| 历史| 威远县| 德清县| 阳高县| 阿勒泰市| 芦山县| 宁波市| 龙山县| 留坝县| 胶南市| 通化县| 通山县| 江油市| 英吉沙县| 永新县| 冀州市| 淄博市| 乳山市| 永兴县| 九龙县| 米泉市| 准格尔旗| 宜兴市| http://444 http://444 http://444 http://444 http://444 http://444