語(yǔ)音門(mén)戶(hù)——用語(yǔ)言“改變”世界
2001/03/23
從古老的“芝麻開(kāi)門(mén)”傳說(shuō)開(kāi)始,人類(lèi)就一直幻想著(zhù)用語(yǔ)言去征服和改造自然。伴隨新技術(shù)的不斷發(fā)展,人類(lèi)的這一夢(mèng)想正在逐步實(shí)現。誰(shuí)能預知中文語(yǔ)音識別技術(shù)究竟能給我們帶來(lái)什么樣的應用前景?技術(shù)與應用又將是怎樣的一種互動(dòng)關(guān)系呢?
對話(huà)者:
主 持 人:王向東 《計算機世界》報記者
IT 廠(chǎng) 商:沈鱇騏 言豐科技有限公司(中國區)總經(jīng)理
用 戶(hù): 黃富清 北京京信北斗信息服務(wù)中心262信息臺總經(jīng)理
對話(huà)主題:中文語(yǔ)音識別技術(shù)的應用將帶來(lái)什么樣的商機?
主持人:昨天,人類(lèi)對技術(shù)孜孜不倦的追求,總能不斷帶動(dòng)應用的腳步。今天,語(yǔ)音識別技術(shù)的商業(yè)應用正在引起人們的廣泛關(guān)注,因為它將以令人難以置信的擴張力量改變我們的工作和生活。語(yǔ)音識別技術(shù)已發(fā)展到何種階段?它未來(lái)的應用目標是什么?
人機交互突破瓶頸
主持人:新技術(shù)轉化為生產(chǎn)力的核心是應用,而同樣的技術(shù)未必能得到同樣的應用效果。比如說(shuō)電腦,中國人使起來(lái)就是不如美國人方便,輸入方式是最大的瓶頸。從五筆字型到漢王手寫(xiě)輸入,再到最近的筆輸入,都是在努力讓中國人實(shí)現同電腦更方便地交流。當然,還有一種技術(shù)可以使不同國家的人同電腦保持同樣的距離,這就是語(yǔ)音識別技術(shù)。只有通過(guò)這項技術(shù)人們才能同樣享受到電腦科技的無(wú)窮魅力。包括IBM、飛利浦等一些知名企業(yè)都在不斷挑戰語(yǔ)音識別技術(shù)這一難題。言豐科技是否也屬于這支隊伍中的一員?從應用的角度去看問(wèn)題,語(yǔ)音識別技術(shù)要攻克的瓶頸是什么?
沈鱇騏:從技術(shù)的角度來(lái)看,目前語(yǔ)音識別技術(shù)有三個(gè)研究發(fā)展方向,即電腦、電話(huà)和手機三個(gè)不同的應用領(lǐng)域。第一個(gè)是電腦的語(yǔ)音錄入應用,就是電腦能夠把人們所說(shuō)的話(huà)記錄下來(lái),解決文字輸入的問(wèn)題;第二個(gè)是電話(huà)的語(yǔ)音識別應用,就是借助通信平臺實(shí)現語(yǔ)音技術(shù)的更廣泛應用;第三個(gè)是手機的語(yǔ)音識別應用,就是嵌入式的語(yǔ)音識別技術(shù),實(shí)現手機、尋呼機在移動(dòng)通信中的語(yǔ)音識別應用。我個(gè)人認為,五到十年以后,上述三個(gè)方向將會(huì )走到一起來(lái)。
目前,IBM主要是在第一項電腦語(yǔ)音錄入方面取得了重大的突破,而言豐科技所研究的領(lǐng)域主要是在第二項,如何通過(guò)通信平臺實(shí)現語(yǔ)音識別技術(shù)的廣泛商業(yè)應用。這兩者在技術(shù)領(lǐng)域和應用領(lǐng)域都有著(zhù)較大的差別:首先是語(yǔ)音信號的采集方式不同。電腦錄入對語(yǔ)音質(zhì)量的要求比較嚴格,而電話(huà)采集的語(yǔ)音質(zhì)量就比較差;其次是自然語(yǔ)言和非自然語(yǔ)言的區別,電腦錄入使用的是非自然語(yǔ)言,需要對電腦進(jìn)行特殊的培訓才能使用。而電話(huà)是自然語(yǔ)言,因為你無(wú)法預知是誰(shuí)打來(lái)的電話(huà),是男是女、是何種口音;第三個(gè)不同在于字庫量,電腦錄入的難度是詞匯量非常巨大,要盡可能包容任何可能出現的詞匯,這也是電腦錄入在技術(shù)上的難題。而基于通信平臺的語(yǔ)音識別應用是有一定范圍的,它所涉及的詞匯量是可以控制的。由此可以看出,兩種語(yǔ)音識別技術(shù)將在不同的應用方面發(fā)揮不同的作用。
言豐科技研發(fā)的語(yǔ)音識別技術(shù)所要達到的應用目標是:通過(guò)自然的語(yǔ)言交流,實(shí)現人機交互式的對話(huà)形式,使電腦能理解我們的語(yǔ)言,并按照我們的指示去工作。這一目標的實(shí)現將會(huì )給人類(lèi)的工作和生活帶來(lái)質(zhì)的變化,同時(shí)將產(chǎn)生巨大的商業(yè)價(jià)值。因此,今天基于通信平臺的語(yǔ)音識別技術(shù)的商業(yè)應用已為眾多的企業(yè)所關(guān)注。那么為什么語(yǔ)音識別技術(shù)應用會(huì )突然熱起來(lái)呢?我認為是技術(shù)的發(fā)展在一定階段時(shí)打破了應用的瓶頸,從而帶來(lái)了應用的進(jìn)步。因為語(yǔ)音識別是一項難度很大的技術(shù),里面的算法非常復雜,對CPU的要求也非常高,過(guò)去應用的條件不具備。而近兩年CPU發(fā)展很快,而語(yǔ)音識別中的算法也日益精湛,兩者有機地集成在一起后,應用的條件就日趨成熟。可以預見(jiàn),隨著(zhù)技術(shù)的快速發(fā)展,再過(guò)10~20年的時(shí)間,我們將可以做到非常自然的人機交互式對話(huà)。
技術(shù)應用互為依存
主持人:技術(shù)和應用是一對矛盾,他們互為瓶頸、互為動(dòng)力,語(yǔ)音識別技術(shù)也應體現這一客觀(guān)規律。具體在實(shí)際發(fā)展中,語(yǔ)音識別技術(shù)與應用是如何相互作用的?
黃富清:我們在實(shí)踐中對技術(shù)與應用的體會(huì )還是很深的。因為我們開(kāi)辦的信息臺屬于高科技類(lèi)的經(jīng)營(yíng)模式,這決定了它必須采用比較先進(jìn)的網(wǎng)絡(luò )技術(shù)和語(yǔ)音識別技術(shù),才能夠為用戶(hù)提供高質(zhì)量的服務(wù)。262信息臺也正是通過(guò)積極采用新技術(shù)提供新服務(wù),從而獲得了可觀(guān)的經(jīng)濟效益。比如說(shuō),信息臺的起步就是建立在20世紀90年代應用先進(jìn)的語(yǔ)音卡技術(shù)的基礎上,通過(guò)這塊語(yǔ)音卡開(kāi)發(fā)出了多種語(yǔ)音服務(wù)系統,從而提供了無(wú)人值守電話(huà)、股票信息自動(dòng)查詢(xún)系統、電話(huà)自動(dòng)點(diǎn)歌系統等多項服務(wù)。那時(shí)候買(mǎi)一塊語(yǔ)音卡要花4萬(wàn)多元,加上軟件開(kāi)發(fā)費總共需要11萬(wàn)多元。但是我們幾天就能掙回來(lái),因為打電話(huà)查詢(xún)的人特別多。當時(shí)股票炒得火,電話(huà)查詢(xún)又非常方便,滿(mǎn)足了廣大股民的實(shí)際需求。
正是新技術(shù)給我們帶來(lái)了應用的提高和實(shí)際的收益,但同時(shí)技術(shù)的瓶頸又成為應用進(jìn)一步發(fā)展的攔路石。由于語(yǔ)音技術(shù)幾年沒(méi)有進(jìn)一步發(fā)展,信息臺的業(yè)務(wù)也因技術(shù)的限制而無(wú)法跳躍性地向前發(fā)展。舉例而言,用戶(hù)今天要通過(guò)信息臺查詢(xún)股票行情,需要在電話(huà)上操作很多鍵,要通過(guò)幾層、十幾層甚至幾十層,才能找到自己想要的東西。用戶(hù)要想查詢(xún)某支股票,首先要選擇按鍵1(上海)和按鍵2(深圳),其次要查詢(xún)多少號的股票,第三再查詢(xún)1(總指數)、2(收盤(pán)價(jià))、3(現在價(jià))等等。
這種查詢(xún)方式非常繁鎖,很不方便,用戶(hù)多數是查到第四層就不愿再繼續往下聽(tīng)了。有的用戶(hù)聽(tīng)著(zhù)聽(tīng)著(zhù)就糊涂了,或者是聽(tīng)了半天也沒(méi)有找到自己想要的東西。用戶(hù)普遍對這種水平的服務(wù)越來(lái)越不滿(mǎn)意。現在移動(dòng)局的手機短信息服務(wù)也遇到這個(gè)問(wèn)題,用戶(hù)發(fā)了半天最后按錯了,就得重來(lái),可是費用還要照交,用戶(hù)對此非常有意見(jiàn)。
這里面就涉及了技術(shù)與應用的關(guān)系問(wèn)題,用戶(hù)進(jìn)入了信息查詢(xún)系統就應該交費了,可是用戶(hù)又沒(méi)能得到自己真正想要的服務(wù)。這就是因為技術(shù)不完善,不能滿(mǎn)足今天用戶(hù)的需求,如果技術(shù)不能向前發(fā)展,應用水平不能進(jìn)一步提高,原有的低水平服務(wù)將逐步被用戶(hù)所淘汰。所以,我們對任何能帶來(lái)新應用的新技術(shù)都非常關(guān)注,只要它能提高我們原有的服務(wù)水平,我們就會(huì )積極地應用它。現在光靠改善服務(wù)態(tài)度是不能從根本上提高服務(wù)質(zhì)量,只有在技術(shù)上有新的突破。
沈鱇騏:的確如此,技術(shù)與應用是密不可分的關(guān)系。言豐科技所推動(dòng)的基于通信平臺的語(yǔ)音識別技術(shù),已超越了電話(huà)按鍵層層查詢(xún)的應用時(shí)代,已可以做到通過(guò)電話(huà)與電腦交談。比如說(shuō)我想查今天的股價(jià),電腦已經(jīng)可以根據你的語(yǔ)音提示,自動(dòng)找尋并報出股價(jià)給你聽(tīng),電腦的語(yǔ)言識別系統已可以理解用戶(hù)要查詢(xún)的內容。這里面包含著(zhù)一個(gè)關(guān)鍵的自動(dòng)化技術(shù),使電腦可以從數據庫里找出你所需要的東西,在一定范圍里,我們已能夠做到人機交流了。這就為下一步推動(dòng)商業(yè)應用奠定了更堅實(shí)的技術(shù)基礎。
我們現有的語(yǔ)音識別系統還有一定的局限性,還不能自然到像人與人交談一樣。比如說(shuō)“幫我看一下北京今天的航班情況”,這句話(huà)本是很自然的語(yǔ)言,但要從語(yǔ)音識別的角度來(lái)看,我們要做出很多改進(jìn),從硬件到軟件。我們認為還需要十年、二十年才能真正達到人與電腦用自然的語(yǔ)言交談。那么為什么我們今天就把現有語(yǔ)音識別技術(shù)拿出來(lái)用呢?是因為我們已看到在很多應用領(lǐng)域,在一定的可控制范圍之內,現有的語(yǔ)音識別技術(shù)已足夠推動(dòng)應用水平向前邁進(jìn)一步,它會(huì )給用戶(hù)帶來(lái)效益上的提高。
從目前我們的理解,從語(yǔ)音識別技術(shù)應用角度來(lái)說(shuō),這項技術(shù)還遠未達到應用的熱潮。我們認為真正的熱潮還要一年到兩年時(shí)間,一來(lái)是需要培育市場(chǎng),接受新觀(guān)念;二來(lái)是改善應用環(huán)境,包括技術(shù)環(huán)境、市場(chǎng)環(huán)境,無(wú)論是電腦平臺還是通信平臺,都有一個(gè)逐步淘汰和更新的過(guò)程。此外,還有一個(gè)語(yǔ)音特征數據庫的積累,這個(gè)積累過(guò)程沒(méi)有任何捷徑可走,只有從大量的語(yǔ)音量中提取相同的語(yǔ)音特征,才能真正產(chǎn)生成熟的應用。
語(yǔ)音門(mén)戶(hù)商機無(wú)限
主持人:語(yǔ)音識別技術(shù)在不斷進(jìn)步,這項技術(shù)所帶來(lái)的商業(yè)應用也將日益廣泛。那么,經(jīng)過(guò)未來(lái)10年或20年發(fā)展,技術(shù)與應用的成熟將會(huì )產(chǎn)生什么樣的結果?語(yǔ)音識別技術(shù)近期可以實(shí)現的應用目標是什么?
黃富清:作為用戶(hù),我深深地感受到技術(shù)向前發(fā)展一步,就會(huì )促進(jìn)生產(chǎn)力向前發(fā)展,而且它的經(jīng)濟效益可能是成幾十倍往上增長(cháng)。同樣,我們如果采用了一個(gè)好的新技術(shù),下個(gè)月的收入會(huì )成倍往上增長(cháng)。從現實(shí)情況來(lái)看,從語(yǔ)音卡到軟件開(kāi)發(fā)有局限性,一層一層往下分,如果信息量大了,內容太多了,服務(wù)就沒(méi)法做了。從我的經(jīng)驗看,如果技術(shù)應用穩定在一個(gè)水平上,客戶(hù)卻不是穩定在同一水平上,而是在下降。因為你總沒(méi)有新東西,客戶(hù)就會(huì )不滿(mǎn)意了,就可能轉向一個(gè)更新更好的應用平臺。
所以,我們去年8月發(fā)現言豐科技的語(yǔ)音識別技術(shù)之后,覺(jué)得非常了不起。應用言豐的技術(shù)之后,我們就可以打破很多原有的限制,用戶(hù)可以比原來(lái)更方便地進(jìn)行人機交流,比原來(lái)按鍵方式方便、快捷多了;用戶(hù)滿(mǎn)意多了,愛(ài)用的人多了,我們的企業(yè)效益也隨之提高了。
沈鱇騏:我個(gè)人認為,語(yǔ)音識別技術(shù)的發(fā)展是一個(gè)環(huán)環(huán)相扣的關(guān)系,由于語(yǔ)音識別技術(shù)所借助的很多基礎性技術(shù)也在不斷發(fā)展、變化,使得語(yǔ)音技術(shù)所要攻克的目標也在不斷發(fā)展變化。所以我們把語(yǔ)音識別技術(shù)定位在應用技術(shù),底層的技術(shù)平臺搭得越高,應用層次的技術(shù)就開(kāi)始發(fā)生變化。從用戶(hù)的角度來(lái)看,你可以通過(guò)運用語(yǔ)音技術(shù)去進(jìn)行企業(yè)的改造或企業(yè)的服務(wù),然后再把更好的服務(wù)提供給更廣泛的終端用戶(hù)。
如何把電話(huà)語(yǔ)音系統跟Internet和商務(wù)結合起來(lái)?電話(huà)在全球有1.7億部,應用基礎非常廣泛,為此,我們在中國推出了語(yǔ)音門(mén)戶(hù)平臺新理念,分為電信級的語(yǔ)音門(mén)戶(hù)平臺和企業(yè)級的語(yǔ)音門(mén)戶(hù)平臺。目的是通過(guò)它為個(gè)人、企業(yè)和電信行業(yè)提供更好的語(yǔ)音識別技術(shù)服務(wù)。可以想像一下,當某一天您開(kāi)車(chē)上班時(shí),可以用語(yǔ)音控制開(kāi)關(guān)車(chē)門(mén)、車(chē)里的音響、手機;到辦公室后也是用語(yǔ)音指揮收發(fā)電子郵件、收發(fā)傳真、查詢(xún)電話(huà)錄音、制定工作計劃、篩選有效信息,以及用語(yǔ)音預訂機票、午餐、查詢(xún)交易股票等等。總之,通過(guò)開(kāi)發(fā)與推動(dòng)多語(yǔ)種交談式語(yǔ)音識別技術(shù)在最普及的電話(huà)及無(wú)線(xiàn)電話(huà)中的應用,可以使有用、準確、及時(shí)的信息在任何時(shí)間、任何地點(diǎn)提供給需要它的任何客戶(hù)。那時(shí),語(yǔ)音識別技術(shù)將真正幫助人類(lèi)用語(yǔ)言打開(kāi)改變世界之門(mén)。
|