首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

語(yǔ)音識別技術(shù)前景廣闊

2007/01/16

  微軟公司(Microsoft)和福特汽車(chē)公司(Ford)希望人們能向汽車(chē)發(fā)出口頭指令,雖然短時(shí)間內實(shí)現這點(diǎn)的可能性不大。但實(shí)際上,人們早已和芯片進(jìn)行口頭交流了,只是大家并沒(méi)有意識到而已。不僅如此,今后人們和芯片的交流還會(huì )越來(lái)越多。

  自電腦問(wèn)世以來(lái),科學(xué)家們就一直致力于讓電腦能理解人們的講話(huà)。幾年前,除了實(shí)驗室內的演示之外,這方面還沒(méi)什么進(jìn)展。不過(guò)現在,電腦的語(yǔ)音識別功能已經(jīng)相當先進(jìn),并被廣泛運用到各個(gè)領(lǐng)域,如汽車(chē)上。

  不久前,在拉斯維加斯(Las Vegas)舉行的國際電子消費品展覽會(huì )上,比爾•蓋茨(Bill Gates)和福特汽車(chē)公司的高管們展示了微軟公司的Sync軟件是如何讓駕車(chē)者們通過(guò)口頭指令在車(chē)內播放音樂(lè )和撥打電話(huà)的。但是,通過(guò)口頭指令駕駛汽車(chē)還難以被廣泛運用,至少目前還不行。

  新版的Windows操作系統Vista具有相當先進(jìn)的內置語(yǔ)音識別軟件,但微軟公司在推銷(xiāo)Vista的時(shí)候并沒(méi)有大肆宣揚這一點(diǎn)。那些希望了解該軟件功能的用戶(hù)也許要在難以得到微軟大力幫助的情況下進(jìn)行了。

  目前,世面上最先進(jìn)的電腦語(yǔ)音識別軟件是Naturally Speaking。該產(chǎn)品的來(lái)歷有點(diǎn)復雜:它出自于Nuance Communications,該公司的前身是ScanSoft。ScanSoft通過(guò)一系列的收購,如收購Dictaphone等,試圖將公司打造為全美最主要的語(yǔ)音識別技術(shù)供應商。

  Naturally Speaking的大多數用戶(hù)認為該軟件運行效果不錯,盡管你的發(fā)音要比平時(shí)說(shuō)話(huà)更清楚。用戶(hù)對著(zhù)麥克風(fēng)說(shuō)話(huà),屏幕上就顯示出說(shuō)話(huà)的內容,很容易糾正識別錯誤。這樣一來(lái),該軟件就會(huì )逐步適應用戶(hù)的說(shuō)話(huà)風(fēng)格,當然用戶(hù)也相應地調整了自己的說(shuō)話(huà)風(fēng)格,因此語(yǔ)音識別的正確率就會(huì )提高。

  雖然通過(guò)口頭指令來(lái)控制電腦在科幻小說(shuō)里屢見(jiàn)不鮮,但事實(shí)上大多數人覺(jué)得通過(guò)鍵盤(pán)和鼠標來(lái)控制電腦也很方便。比爾•邁森(Bill Meisel)對語(yǔ)音識別軟件市場(chǎng)很有研究,他指出,目前該軟件主要用于法律和醫學(xué)等特定領(lǐng)域。例如,放射線(xiàn)學(xué)者們越來(lái)越多地通過(guò)語(yǔ)音識別軟件口授診斷報告和結果,而不再由錄音機錄下口頭報告,再加以轉錄。

  語(yǔ)音識別軟件是利用非常復雜的統計方法來(lái)把人們的講話(huà)與單詞相對應起來(lái)的。電腦功能的日益強大意味著(zhù)這類(lèi)電腦軟件如今能在交貨前被“訓練”數千個(gè)小時(shí),而十年前只能“訓練”幾十個(gè)小時(shí)。

  語(yǔ)音識別技術(shù)的主要應用領(lǐng)域之一就是呼叫中心。許多電腦查詢(xún)服務(wù)采用了這項技術(shù),通常是Nuance公司的技術(shù),來(lái)處理客戶(hù)的需求,而無(wú)需人工服務(wù)了。此外,較為復雜的銷(xiāo)售及支持工作也日益自動(dòng)化了。如今,人們可以通過(guò)向航空公司的電腦發(fā)出口頭指令來(lái)購買(mǎi)或查詢(xún)機票。(雖然我對語(yǔ)音識別技術(shù)很感興趣,我個(gè)人還是喜歡與人交流。如果這些工作今后都由電腦取代,那真是太令人遺憾了。)

  邁森還預計說(shuō),接下來(lái),語(yǔ)音識別技術(shù)將被用于網(wǎng)絡(luò )搜索。預計在不久的將來(lái),谷歌(Google)和雅虎(Yahoo)將推出面向手機用戶(hù)的語(yǔ)音搜索服務(wù),用戶(hù)只要說(shuō)出自己想找什么,就可以聽(tīng)到電腦的自動(dòng)答復。這兩家公司都已聘請了語(yǔ)音識別技術(shù)專(zhuān)家。Nuance還在與雅虎對簿公堂,因為雅虎挖走了Nuance的13名工程師。

  在語(yǔ)音識別技術(shù)研究方面一直頗為領(lǐng)先的國際商業(yè)機器公司(IBM)也有宏偉計劃,例如研制一種軟件能監聽(tīng)四到五個(gè)人參加的小型會(huì )議,然后提供準確的書(shū)面記錄。由于大多數此類(lèi)軟件目前只能識別單個(gè)說(shuō)話(huà)者,IBM的計劃顯然有點(diǎn)超前。

  不過(guò),負責IBM的語(yǔ)音識別技術(shù)開(kāi)發(fā)的戴維•那哈莫(David Nahamoo)表示,該公司已經(jīng)開(kāi)發(fā)出了其他一些應用軟件。其中一項是能自動(dòng)翻譯外語(yǔ)廣播,如阿拉伯語(yǔ)廣播。該軟件首先通過(guò)語(yǔ)音識別技術(shù)記錄下說(shuō)話(huà)者所說(shuō)的話(huà),然后通過(guò)翻譯軟件把外語(yǔ)翻譯成英語(yǔ)。

  這個(gè)軟件目前還非常不成熟,但也足以翻譯出說(shuō)話(huà)者的要點(diǎn)。對于缺乏阿拉伯語(yǔ)人才、但又想深入掌握阿拉伯世界動(dòng)態(tài)的美國政府而言,該軟件不失為一個(gè)很好的選擇。

  除了情報服務(wù)領(lǐng)域之外,該軟件的應用領(lǐng)域還不少呢。例如,各電視臺目前承受很大壓力,公眾要求它們?yōu)槁?tīng)覺(jué)有障礙的觀(guān)眾提供字幕服務(wù),但電視臺沒(méi)有人手。隨著(zhù)時(shí)間的推移,采用軟件進(jìn)行自動(dòng)處理也許是個(gè)好方法。當然,這對于大學(xué)教授的講座也同樣適用:設想一下學(xué)生們可以在課堂上打瞌睡,同時(shí)又不會(huì )漏掉老師講的每個(gè)詞。

http://www.chinese.wsj.com



相關(guān)鏈接:
電話(huà)銀行系統可識別用戶(hù)語(yǔ)音 2006-11-03
語(yǔ)音自助服務(wù)并不僅僅是技術(shù) 2006-11-02
評論:語(yǔ)音識別適合網(wǎng)絡(luò )應用 2006-10-24
CRM語(yǔ)音業(yè)務(wù)需求呈現快速增長(cháng) 2006-08-21
語(yǔ)音識別:抗噪音能力有待加強 2006-08-11

分類(lèi)信息:        
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 吉林省| 建始县| 大城县| 寿光市| 鸡西市| 应用必备| 桂林市| 涟源市| 农安县| 郎溪县| 卓尼县| 石柱| 浑源县| 胶州市| 兴业县| 墨玉县| 玉门市| 乌拉特后旗| 卢湾区| 甘南县| 静乐县| 呼伦贝尔市| 四平市| 宁南县| 芜湖县| 天津市| 英超| 永州市| 青浦区| 广东省| 花莲市| 萨嘎县| 嘉义县| 阳曲县| 平潭县| 喜德县| 达孜县| 固阳县| 江阴市| 泽州县| 兴海县| http://444 http://444 http://444 http://444 http://444 http://444