語(yǔ)音識別技術(shù)前景廣闊
2007/01/16
微軟公司(Microsoft)和福特汽車(chē)公司(Ford)希望人們能向汽車(chē)發(fā)出口頭指令,雖然短時(shí)間內實(shí)現這點(diǎn)的可能性不大。但實(shí)際上,人們早已和芯片進(jìn)行口頭交流了,只是大家并沒(méi)有意識到而已。不僅如此,今后人們和芯片的交流還會(huì )越來(lái)越多。
自電腦問(wèn)世以來(lái),科學(xué)家們就一直致力于讓電腦能理解人們的講話(huà)。幾年前,除了實(shí)驗室內的演示之外,這方面還沒(méi)什么進(jìn)展。不過(guò)現在,電腦的語(yǔ)音識別功能已經(jīng)相當先進(jìn),并被廣泛運用到各個(gè)領(lǐng)域,如汽車(chē)上。
不久前,在拉斯維加斯(Las Vegas)舉行的國際電子消費品展覽會(huì )上,比爾•蓋茨(Bill Gates)和福特汽車(chē)公司的高管們展示了微軟公司的Sync軟件是如何讓駕車(chē)者們通過(guò)口頭指令在車(chē)內播放音樂(lè )和撥打電話(huà)的。但是,通過(guò)口頭指令駕駛汽車(chē)還難以被廣泛運用,至少目前還不行。
新版的Windows操作系統Vista具有相當先進(jìn)的內置語(yǔ)音識別軟件,但微軟公司在推銷(xiāo)Vista的時(shí)候并沒(méi)有大肆宣揚這一點(diǎn)。那些希望了解該軟件功能的用戶(hù)也許要在難以得到微軟大力幫助的情況下進(jìn)行了。
目前,世面上最先進(jìn)的電腦語(yǔ)音識別軟件是Naturally Speaking。該產(chǎn)品的來(lái)歷有點(diǎn)復雜:它出自于Nuance Communications,該公司的前身是ScanSoft。ScanSoft通過(guò)一系列的收購,如收購Dictaphone等,試圖將公司打造為全美最主要的語(yǔ)音識別技術(shù)供應商。
Naturally Speaking的大多數用戶(hù)認為該軟件運行效果不錯,盡管你的發(fā)音要比平時(shí)說(shuō)話(huà)更清楚。用戶(hù)對著(zhù)麥克風(fēng)說(shuō)話(huà),屏幕上就顯示出說(shuō)話(huà)的內容,很容易糾正識別錯誤。這樣一來(lái),該軟件就會(huì )逐步適應用戶(hù)的說(shuō)話(huà)風(fēng)格,當然用戶(hù)也相應地調整了自己的說(shuō)話(huà)風(fēng)格,因此語(yǔ)音識別的正確率就會(huì )提高。
雖然通過(guò)口頭指令來(lái)控制電腦在科幻小說(shuō)里屢見(jiàn)不鮮,但事實(shí)上大多數人覺(jué)得通過(guò)鍵盤(pán)和鼠標來(lái)控制電腦也很方便。比爾•邁森(Bill Meisel)對語(yǔ)音識別軟件市場(chǎng)很有研究,他指出,目前該軟件主要用于法律和醫學(xué)等特定領(lǐng)域。例如,放射線(xiàn)學(xué)者們越來(lái)越多地通過(guò)語(yǔ)音識別軟件口授診斷報告和結果,而不再由錄音機錄下口頭報告,再加以轉錄。
語(yǔ)音識別軟件是利用非常復雜的統計方法來(lái)把人們的講話(huà)與單詞相對應起來(lái)的。電腦功能的日益強大意味著(zhù)這類(lèi)電腦軟件如今能在交貨前被“訓練”數千個(gè)小時(shí),而十年前只能“訓練”幾十個(gè)小時(shí)。
語(yǔ)音識別技術(shù)的主要應用領(lǐng)域之一就是呼叫中心。許多電腦查詢(xún)服務(wù)采用了這項技術(shù),通常是Nuance公司的技術(shù),來(lái)處理客戶(hù)的需求,而無(wú)需人工服務(wù)了。此外,較為復雜的銷(xiāo)售及支持工作也日益自動(dòng)化了。如今,人們可以通過(guò)向航空公司的電腦發(fā)出口頭指令來(lái)購買(mǎi)或查詢(xún)機票。(雖然我對語(yǔ)音識別技術(shù)很感興趣,我個(gè)人還是喜歡與人交流。如果這些工作今后都由電腦取代,那真是太令人遺憾了。)
邁森還預計說(shuō),接下來(lái),語(yǔ)音識別技術(shù)將被用于網(wǎng)絡(luò )搜索。預計在不久的將來(lái),谷歌(Google)和雅虎(Yahoo)將推出面向手機用戶(hù)的語(yǔ)音搜索服務(wù),用戶(hù)只要說(shuō)出自己想找什么,就可以聽(tīng)到電腦的自動(dòng)答復。這兩家公司都已聘請了語(yǔ)音識別技術(shù)專(zhuān)家。Nuance還在與雅虎對簿公堂,因為雅虎挖走了Nuance的13名工程師。
在語(yǔ)音識別技術(shù)研究方面一直頗為領(lǐng)先的國際商業(yè)機器公司(IBM)也有宏偉計劃,例如研制一種軟件能監聽(tīng)四到五個(gè)人參加的小型會(huì )議,然后提供準確的書(shū)面記錄。由于大多數此類(lèi)軟件目前只能識別單個(gè)說(shuō)話(huà)者,IBM的計劃顯然有點(diǎn)超前。
不過(guò),負責IBM的語(yǔ)音識別技術(shù)開(kāi)發(fā)的戴維•那哈莫(David Nahamoo)表示,該公司已經(jīng)開(kāi)發(fā)出了其他一些應用軟件。其中一項是能自動(dòng)翻譯外語(yǔ)廣播,如阿拉伯語(yǔ)廣播。該軟件首先通過(guò)語(yǔ)音識別技術(shù)記錄下說(shuō)話(huà)者所說(shuō)的話(huà),然后通過(guò)翻譯軟件把外語(yǔ)翻譯成英語(yǔ)。
這個(gè)軟件目前還非常不成熟,但也足以翻譯出說(shuō)話(huà)者的要點(diǎn)。對于缺乏阿拉伯語(yǔ)人才、但又想深入掌握阿拉伯世界動(dòng)態(tài)的美國政府而言,該軟件不失為一個(gè)很好的選擇。
除了情報服務(wù)領(lǐng)域之外,該軟件的應用領(lǐng)域還不少呢。例如,各電視臺目前承受很大壓力,公眾要求它們?yōu)槁?tīng)覺(jué)有障礙的觀(guān)眾提供字幕服務(wù),但電視臺沒(méi)有人手。隨著(zhù)時(shí)間的推移,采用軟件進(jìn)行自動(dòng)處理也許是個(gè)好方法。當然,這對于大學(xué)教授的講座也同樣適用:設想一下學(xué)生們可以在課堂上打瞌睡,同時(shí)又不會(huì )漏掉老師講的每個(gè)詞。
http://www.chinese.wsj.com
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
吉林省|
建始县|
大城县|
寿光市|
鸡西市|
应用必备|
桂林市|
涟源市|
农安县|
郎溪县|
卓尼县|
石柱|
浑源县|
胶州市|
兴业县|
墨玉县|
玉门市|
乌拉特后旗|
卢湾区|
甘南县|
静乐县|
呼伦贝尔市|
四平市|
宁南县|
芜湖县|
天津市|
英超|
永州市|
青浦区|
广东省|
花莲市|
萨嘎县|
嘉义县|
阳曲县|
平潭县|
喜德县|
达孜县|
固阳县|
江阴市|
泽州县|
兴海县|
http://444
http://444
http://444
http://444
http://444
http://444