語(yǔ)音識別將把鼠標鍵盤(pán)打入冷宮?
四大技術(shù)難點(diǎn)阻礙語(yǔ)音識別技術(shù)平民化

劉喜喜 2008/03/17

  當“語(yǔ)音識別(ASR)五年內將取代鍵盤(pán)”被比爾·蓋茨在多個(gè)場(chǎng)合再三強調,語(yǔ)音識別勢必成為業(yè)界關(guān)注的焦點(diǎn)。但語(yǔ)音識別何時(shí)才能走近消費者?科學(xué)家正在攻克什么難關(guān)?語(yǔ)音識別真會(huì )取代鼠標和鍵盤(pán)嗎?

  從孤立詞到大詞匯量連續語(yǔ)音的識別(LVCSR),再到語(yǔ)音庫檢索,語(yǔ)音識別技術(shù)一直在向前發(fā)展,只是語(yǔ)音識別似乎離我們還有些遙遠。“今后5年內,互聯(lián)網(wǎng)搜索將更多地通過(guò)語(yǔ)音來(lái)完成。”2月23日,比爾·蓋茨在美國卡內基-梅隆大學(xué)發(fā)表演講說(shuō)道, 這已數不清是他第幾次在公開(kāi)場(chǎng)合提及語(yǔ)音識別了。

  語(yǔ)音識別將會(huì )取代鼠標和鍵盤(pán)嗎?面對記者拋出的問(wèn)題,幾乎所有被訪(fǎng)問(wèn)者都有一個(gè)共識:語(yǔ)音識別將會(huì )給用戶(hù)提供多一種的輸入方式,但現階段不可能完全替代鼠標和鍵盤(pán)。不過(guò)談及語(yǔ)音識別進(jìn)展為何比較慢時(shí),各路專(zhuān)家卻是見(jiàn)仁見(jiàn)智:標準的差別、噪聲的困擾、嵌入式芯片計算量的脫節、產(chǎn)品化的難題一一被擺到臺面上來(lái)。

標準輸入的難題

  不要小看鼠標和鍵盤(pán),雖貌似技術(shù)含量低,但它所具備的統一的輸入標準和精準的視覺(jué)反饋這兩點(diǎn),正是語(yǔ)音識別技術(shù)目前的短板。

  當南方人把“牛奶”念成“留來(lái)”的時(shí)候,究竟是機器識別錯了,還是人錯了?微軟中國研發(fā)集團下屬微軟亞洲研究院語(yǔ)音識別組組長(cháng)宋言哥平提出這樣一個(gè)問(wèn)題。不要小看這個(gè)問(wèn)題,語(yǔ)言輸入不標準從而導致識別錯誤率高過(guò)鍵盤(pán),是語(yǔ)音識別無(wú)法取代鼠標鍵盤(pán)的首要原因。

  事實(shí)上,不僅是南北口音差異,每個(gè)人都有獨有的發(fā)音習慣。因此在Vista中,每個(gè)用戶(hù)在用語(yǔ)音控制電腦前,都需要以自己的語(yǔ)音,對電腦進(jìn)行適應訓練,使其習慣自己的發(fā)音,識別出正確的指令。在2006年的一次公開(kāi)示范中,Vista語(yǔ)音識別系統認“Mom”為“Aunt”,并100%誤讀了演示員工的意思,使業(yè)界嘩然。對這個(gè)“認母為姨”的錯誤,宋言哥平做出這樣的解釋?zhuān)骸把菔窘M里每個(gè)員工都有自己的適應模型,正是演示人員張三慌忙中誤使用了李四的身份和模型,才導致了這樣的錯誤。”這從一個(gè)側面也可以反映出語(yǔ)音輸入不易規范的弊病。

  除去口音參差不齊,安徽科大訊飛研究院副院長(cháng)胡郁認為,輸入設備沒(méi)有統一標準也導致了語(yǔ)音輸入的不標準:“在語(yǔ)音識別狀態(tài)下,麥克風(fēng)錄音不是給人聽(tīng),而是給機器聽(tīng)。而現在很多嵌入式設備上的麥克風(fēng)的錄音質(zhì)量是以人可以聽(tīng)懂為依據的。但在什么標準范圍內,機器才能聽(tīng)清聽(tīng)懂,目前還沒(méi)有統一標準。”此外,面對“取C盤(pán)的某個(gè)文件”這樣一個(gè)指令,鼠標需要層層點(diǎn)擊,但語(yǔ)音識別只需要一句話(huà),當然方便。但當遇到“點(diǎn)擊這張圖片上的某一點(diǎn)”這樣的命令時(shí)呢?電腦將很難聽(tīng)懂和判斷這句話(huà)的精準目的,而鼠標卻可輕易辦到。

噪聲的困擾

  語(yǔ)音輸入很難規范,從某種程度上說(shuō)是人為因素造成的,但噪聲卻是一種不可抗力。宋言哥平與胡郁均表示,噪聲環(huán)境的處理是目前語(yǔ)音識別領(lǐng)域公認的技術(shù)難題。“這很好理解,機器無(wú)法像人那樣分辨出人聲和噪聲。”宋言哥平解釋道,“同時(shí),不同場(chǎng)景有不同噪聲,訓練的情況也不能匹配真實(shí)環(huán)境,這使語(yǔ)音識別在噪聲中比在安靜的環(huán)境下難得多。”

  目前,主流的技術(shù)思考方向是,研究出盡可能好的算法,使誤差降到最低:在前端,在已混入噪聲的語(yǔ)音中,提取一個(gè)抗噪性高的語(yǔ)音特征;在語(yǔ)音訓練的時(shí)候,利用“最小識別錯誤訓練方法”,結合噪聲處理算法訓練出一個(gè)語(yǔ)音模型,使識別系統在噪聲環(huán)境里的魯棒性比較高;在語(yǔ)音解碼的過(guò)程中進(jìn)行多重選擇,憑借放入解碼機制的信息,判斷第一順位的答案是否正確,如不正確可以看看第二、三順位的方法。這些方法都可為提高語(yǔ)音識別在噪聲環(huán)境中使用的精準性而服務(wù)。

  完全消除噪聲的干擾從理論上說(shuō)是可能的——只要算法足夠復雜和龐大。但是運算量的龐大勢必造成兩個(gè)問(wèn)題:芯片存儲量有限和“萬(wàn)靈模板”問(wèn)題。

要不要等待芯片

  之前,有科學(xué)家提出“2010年將是語(yǔ)音識別市場(chǎng)爆發(fā)之年”。其實(shí),這是建立在算法成熟的基礎上來(lái)預測的。北京拓源信息咨詢(xún)有限公司的總經(jīng)理鄭院生一直關(guān)注語(yǔ)音識別以及其他人工智能技術(shù)的應用問(wèn)題,他認為:“從算法和計算過(guò)程的角度看,語(yǔ)音識別其實(shí)是一個(gè)人工智能的問(wèn)題,如果芯片的運算速度足夠快,很多語(yǔ)音識別的技術(shù)難題就可以迎刃而解。”

  但在現實(shí)中,語(yǔ)音識別在產(chǎn)品轉換中遇到了問(wèn)題,大多運用語(yǔ)音識別技術(shù)的設備都是嵌入式設備,比如手機、導航儀、學(xué)習機等。“芯片運算量、存儲量和消費比的問(wèn)題沒(méi)有得到解決。假使嵌入式芯片能像臺式機的芯片一樣厲害(目前只和1997年的臺式機一樣),那就解決大問(wèn)題了。”胡郁告訴記者,“手機用戶(hù)目前只能語(yǔ)音查號碼,這是因為手機芯片不夠強大。汽車(chē)電腦也達不到臺式機的水平。”

  “摩爾定律仍舊有效,芯片基礎架構和運算能力的代際演進(jìn),將為語(yǔ)音識別技術(shù)的不斷成熟提供越來(lái)越可靠的物理平臺。”鄭院生對語(yǔ)音識別的未來(lái)保持很大的樂(lè )觀(guān)。“作為技術(shù)研究者,我們要么就是提前研究,要么就是坐等芯片運算量上來(lái)了再研究。”宋言哥平認為,技術(shù)一定是跑在市場(chǎng)前頭的。

“松緊帶”怪圈

  科學(xué)家大多是完美主義者,都想設計一個(gè)像松緊帶一樣的萬(wàn)靈模板的通用產(chǎn)品,粗腰細腰都能穿。“但事實(shí)上,按照說(shuō)話(huà)人量身打造的東西才是最好的,可這樣做工本又太高了。”宋言哥平認為,做好語(yǔ)音識別通用產(chǎn)品,針對不同場(chǎng)景做細微調整之間的權衡很重要。

  此前IBM推出的Via Voice憑借當時(shí)堪稱(chēng)完美的技術(shù)轟動(dòng)一時(shí),但用戶(hù)卻并不買(mǎi)賬,很多軟件被束之高閣。“我認為包括Vista在內的語(yǔ)音識別產(chǎn)品,在人機界面的人性化設計上仍不夠完美自然,這大大降低了用戶(hù)的接受度。”宋言哥平表示。好的人機界面可在用戶(hù)說(shuō)錯而渾然不知時(shí),使計算機不被干擾,識別如常。

  胡郁則認為,目標定位不正確(直接采用口述的方式輸入需要不斷思考文本內容)是Via voice叫好不叫座的主要原因。而從國內外成功的語(yǔ)音識別產(chǎn)品來(lái)看,符合用戶(hù)需求確實(shí)非常重要。在國內,語(yǔ)音點(diǎn)歌(有些運營(yíng)商稱(chēng)之為聲動(dòng)炫鈴)十分受歡迎,其實(shí)就是孤立詞搜索的一種應用。微軟去年年初的時(shí)候,用8億美元收購了一家做電話(huà)語(yǔ)音尋址的公司TellMe,從一定程度上說(shuō)明微軟認為語(yǔ)音識別技術(shù)在PC操作之外更有發(fā)展前景,比如在手機、client-server 的呼叫中心、電話(huà)、汽車(chē)、智能家電上。

  此外,人機交互界面只是語(yǔ)音識別的一個(gè)用途,另一個(gè)用途則是多媒體的業(yè)務(wù)管理。比如blinkx網(wǎng)站,它把每段視頻中對應的語(yǔ)音部分都靠語(yǔ)音識別技術(shù)轉換成文字(雖然不一定完全正確),這樣就可以通過(guò)輸入文字來(lái)協(xié)助搜索視頻內容。美國最大的語(yǔ)音技術(shù)提供廠(chǎng)商Nuance就擁有一個(gè)賺錢(qián)的成功業(yè)務(wù)——幫助美國醫生寫(xiě)醫囑。這完全依靠大詞匯量連續語(yǔ)音識別技術(shù)(LVCSR)來(lái)識別醫生的口頭醫囑。

  如此看來(lái),只要找到一個(gè)好的切入點(diǎn),國內企業(yè)也可以做得很好。胡郁甚至隨即開(kāi)始構想如何為記者圈服務(wù)了:采訪(fǎng)累計下來(lái)的歷史錄音,可以借鑒前面Nuance公司的想法轉寫(xiě)出來(lái),從而幫助記者更有效地整理和利用錄音數據,而這只需要很少的費用。

  我想,當很多人愿意為此掏腰包時(shí),語(yǔ)音識別離平民的世界也將不再遙遠。

計算機世界網(wǎng)(www.ccw.com.cn)



相關(guān)鏈接:
語(yǔ)音識別技術(shù)挑戰IVR 2008-01-22
科大訊飛總裁劉慶峰:語(yǔ)音市場(chǎng)進(jìn)入爆發(fā)期 2008-01-04
語(yǔ)音IM在帶寬方面無(wú)需擔憂(yōu) 2007-12-24
互聯(lián)網(wǎng)周刊:當語(yǔ)音識別技術(shù)遇到網(wǎng)絡(luò )視頻 2007-10-30
語(yǔ)音分析 讓你知道客戶(hù)在笑還是在哭 2007-09-06

分類(lèi)信息:        
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 锡林郭勒盟| 南部县| 纳雍县| 民县| 茶陵县| 乐安县| 河西区| 扶绥县| 桐乡市| 仁怀市| 武威市| 尉氏县| 霍城县| 嘉善县| 民县| 黄梅县| 沙湾县| 延边| 晋城| 宿州市| 南乐县| 青阳县| 三河市| 苏尼特左旗| 平山县| 万盛区| 祁阳县| 通许县| 泊头市| 林芝县| 灯塔市| 南投市| 清流县| 平山县| 临泉县| 长顺县| 铁力市| 奎屯市| 朝阳县| 金溪县| 泉州市| http://444 http://444 http://444 http://444 http://444 http://444