科大訊飛副總裁江濤:語(yǔ)音技術(shù)的三大種類(lèi)
2011/10/14
引言:蘋(píng)果iPhone 4S的Siri功能推出,可謂是引起了人們對于智能語(yǔ)音技術(shù)的極大關(guān)注。其實(shí),語(yǔ)音技術(shù)非常復雜,表象繁多,本刊通過(guò)采訪(fǎng)國內科大訊飛、國筆等專(zhuān)家對目前的語(yǔ)音市場(chǎng)進(jìn)行梳理和探討。
一、不僅僅是語(yǔ)音,還是人工智能
盡管蘋(píng)果“教主”喬布斯離開(kāi)了我們,盡管iPhone 5沒(méi)有入人們期望的那樣出現,但是iPhone 4S的推出仍然成功吸引了蘋(píng)果粉絲和業(yè)界的所有關(guān)注。根據美國電話(huà)電報公司(AT&T)透露,iPhone 4S在發(fā)布12小時(shí)之內就接到了20萬(wàn)份訂單,而其中最引入注目的一大新功能,就是被稱(chēng)為Siri的語(yǔ)音助手功能。
10月4日上午,蘋(píng)果全球產(chǎn)品副總裁Phil Schiller與負責iOS軟件的副總裁Scott Forstall在新品發(fā)布會(huì )上,隆重介紹了Siri。
什么是Siri?
Forstall在現場(chǎng)進(jìn)行了演示,他拿起iPhone 4S,對手機問(wèn)道:“今天天氣如何?”屏幕上立刻顯示出今天的天氣狀況。他又接著(zhù)問(wèn),我用帶傘嗎?Siri馬上回答,今天會(huì )下雨。隨后,他還用這款應用演示了搜索和設置鬧鐘提、預約等功能。
Siri跟普通的語(yǔ)音搜索不一樣,它能明白你所說(shuō)的,了解你的意思,甚至還能回答你的問(wèn)題。那感覺(jué)就像真正擁有私人助理似的,而且是一位善解人意的私人助理。無(wú)論你用何種方式提問(wèn),它都能以人的思維去思考和反應,而不是以預設的程序答非所問(wèn)。
Siri能為你做的不僅僅是提供答案,它還可以親自替你完成一些基本的事情。比如,你可以吩咐Siri發(fā)短信給你父親、提醒你預約牙醫、幫你查找到達目的地的路線(xiàn),不用擔心Siri不夠聰明,因為它能夠思考完成這些事情需要運行哪些應用程序,還能明白你要打電話(huà)的準確對象。
Siri還包括傳聞中的“語(yǔ)音轉文字”的功能,你只需按下麥克風(fēng),把你想發(fā)送的內容說(shuō)出來(lái),Siri就可以將你所說(shuō)的內容轉換成文字,并發(fā)送出去。除了發(fā)送短信外,Siri還集成到一些第三方應用,這樣,你只需動(dòng)動(dòng)嘴皮子,就能更新Facebook、發(fā)送Twitter消息或者即時(shí)聊天。
如果你認為Siri只是一個(gè)簡(jiǎn)單的聲音控制軟件,而你的Android手機上的語(yǔ)音助手或NOKIA語(yǔ)音提示也可做到這點(diǎn),那你就錯了。
我們不妨探究一下Siri的血統,這家最近剛被蘋(píng)果收購的公司,直接發(fā)端于美國軍方的CALO(Cognitive Assistant that Learns and Organizes)項目,這也是史上最大的人工智能項目,匯聚了全球人工智能方面的頂尖專(zhuān)家。
你如果看過(guò)好萊塢大導演斯皮爾伯格的電影《A I》,相信會(huì )對人工智能有一定了解,通過(guò)人工智能技術(shù),機器人可以把“對話(huà)、自然語(yǔ)言理解、視覺(jué)、演說(shuō)、機器學(xué)習、制定計劃、理性思考、服務(wù)代表全部融合到一起”。Siri的技術(shù)正源自人工智能,而不是簡(jiǎn)單的搜索和語(yǔ)音識別。它能夠自主分析用戶(hù)發(fā)出的口語(yǔ)指令,并給出確切的回應和指導,完全不需要用戶(hù)預選學(xué)習使用方法。
在國外某科技博客錄制的一段視頻中,評測人員對Siri提出了許多含義模糊或有歧義的問(wèn)題。比如:“附近有沒(méi)有什么浪漫的法國餐廳?”,比如:“天空為何是藍色的?”比如“鋼琴上有多少個(gè)八度?”對人類(lèi)而言,這些句子再平常不過(guò)了,但要讓機器去理解這些變化多端的棘手詞匯,尤其是“浪漫”這種形容詞,那就極端困難了,然而這些問(wèn)題Siri都可以回答。
你甚至還可以對Siri表白,對它說(shuō):“我愛(ài)你!”它的回答也很妙:“希望你不會(huì )對其它手機也這么說(shuō)。”
該評測人員隨后在博客中寫(xiě)到:“Android系統的Voice Actions也是一項偉大的技術(shù),但說(shuō)真的,它和Siri不是同一個(gè)層面的產(chǎn)品。Siri非常酷,與之相比Voice Actions雖說(shuō)確實(shí)讓我們省去了打字輸入、觸摸操作的工序,但操作太復雜,只有那些Geek會(huì )使用它。然而,媽媽們會(huì )選擇Siri。”
二、語(yǔ)音技術(shù)的三大種類(lèi)
除了人工智能,Siri的核心功能仍是基于語(yǔ)音識別的語(yǔ)音技術(shù),其語(yǔ)音引擎來(lái)自Nuance,這家公司在全球手機輸入法上處于壟斷地位。
這一技術(shù)并非革 命性的變革,早在計算機發(fā)明之前,自動(dòng)語(yǔ)音識別的設想就已經(jīng)被提上了議事日程,早期的聲碼器可被視作語(yǔ)音識別及合成的雛形。而1920年代生產(chǎn)的“Radio Rex”玩具狗可能是最早的語(yǔ)音識別器,當這只狗的名字被呼喚的時(shí)候,它能夠從底座上彈出來(lái)。
近二十年來(lái),語(yǔ)音識別技術(shù)取得顯著(zhù)進(jìn)步,開(kāi)始逐漸從實(shí)驗室走向市場(chǎng)。據了解,許多大公司如IBM、蘋(píng)果、微軟、Google、AT&T和NTT等早在多年前都對語(yǔ)音識別系統的實(shí)用化研究投以巨資。目前主流的語(yǔ)音技術(shù)方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ,Nuance公司的Nuance Voice Platform語(yǔ)音平臺,Microsoft的Whisper,Sun的VoiceTone,以及科大訊飛的口訊等。
“語(yǔ)音技術(shù)是一個(gè)典型的交叉科學(xué),涉及到很多方面,不是說(shuō)有錢(qián)就能做的,是有一定門(mén)檻的。你可以去APP下載一個(gè)我們的軟件體驗一下”。根據科大訊飛副總江濤對電子工程專(zhuān)輯記者的介紹,目前語(yǔ)音技術(shù)大體上有三個(gè)分支:
第一類(lèi)是語(yǔ)音合成技術(shù)(TTS),就是把文字變成語(yǔ)音,能夠把文字讀出來(lái)的技術(shù),這個(gè)技術(shù)相對來(lái)說(shuō)發(fā)展最早,也比較成熟。
第二類(lèi)是語(yǔ)音識別技術(shù)(ASR),它又有幾個(gè)細分,比較技術(shù)成熟的有命令識別(voice command),在有限的指定空間中實(shí)現你說(shuō)的命令,早期很多手機上的語(yǔ)音識別很多就是這個(gè)層面。還有一個(gè)分支是語(yǔ)音評測,能夠對你說(shuō)的不同語(yǔ)言的標準程度進(jìn)行打分、評價(jià)與指導。
第三類(lèi)是聲紋識別技術(shù),因為語(yǔ)言中人的聲帶帶有獨特的物理特性,跟指紋、虹膜一樣每個(gè)人的聲音都是獨特的,目前這種技術(shù)主要用在聲音加密方面,可以識別不同人的聲音。
據江濤對電子工程專(zhuān)輯記者透露,目前最難實(shí)現的就是語(yǔ)音識別技術(shù)(ASR),盡管業(yè)內普遍以識別率作為軟件評測的標準,但語(yǔ)音受影響的環(huán)境因素太多了,說(shuō)話(huà)人的語(yǔ)氣、語(yǔ)速、外圍的噪音程度,麥克風(fēng)的情況,尤其是云端識別,傳輸的信道好壞,很多很多因素都是不可控制的,“所以讓官方去測一個(gè)系統識別率是多少其實(shí)意義不大,因為每個(gè)人用的具體環(huán)境都不大一樣。最終做決定的還是消費者,他們會(huì )用自己的手機去投票”。
三、語(yǔ)音技術(shù)面臨的諸多挑戰
據江濤介紹,目前語(yǔ)音識別技術(shù)在實(shí)現上還有幾大難點(diǎn)需要解決:
1、自適應方面
目前,象IBM的ViaVoice和Asiaworks的SPK都需要用戶(hù)在使用前進(jìn)行幾百句話(huà)的訓練,以讓計算機適應你的聲音特征。這必然限制了語(yǔ)音識別技術(shù)的進(jìn)一步應用,大量的訓練不僅讓用戶(hù)感到厭煩,而且加大了系統的負擔。現實(shí)世界的用戶(hù)類(lèi)型是多種多樣的,就聲音特征來(lái)講有男音、女音和童音的區別,此外,許多人的發(fā)音離標準發(fā)音差距甚遠,這就涉及到對口音或方言的處理。事實(shí)上,ViaVoice的應用前景也因為這一點(diǎn)打了折扣,只有普通話(huà)說(shuō)得很好的用戶(hù)才可以在其中文版連續語(yǔ)音識別方面取得相對滿(mǎn)意的成績(jì)。
2、強健性方面
語(yǔ)音識別技術(shù)需要能排除各種環(huán)境因素的影響。目前,對語(yǔ)音識別效果影響最大的就是環(huán)境雜音或嗓音,在公共場(chǎng)合,你幾乎不可能指望手機能聽(tīng)懂你的話(huà),來(lái)自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語(yǔ)音技術(shù)的應用范圍,目前,要在嘈雜環(huán)境中使用語(yǔ)音識別技術(shù)必須有特殊的抗噪(Noise Cancellation)麥克風(fēng)才能進(jìn)行,這對多數用戶(hù)來(lái)說(shuō)是不現實(shí)的。在公共場(chǎng)合中,個(gè)人能有意識地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音,如何讓語(yǔ)音識別技術(shù)也能達成這一點(diǎn)呢?這的確是一個(gè)艱巨的任務(wù)。
某位業(yè)內人士在微博上表示:“與iPhone 4一樣,iPhone 4S也配有副麥克風(fēng),用來(lái)過(guò)濾背景雜音。使用過(guò)Nuance Dragon語(yǔ)音到文本產(chǎn)品的用戶(hù)無(wú)疑會(huì )對這種情形非常熟悉:在語(yǔ)音輸入時(shí)必須保證良好的音質(zhì)并且減少雜音,即便這樣語(yǔ)音輸入結果也并非100%準確。基于此,我們認為iPad和iPod touch上的低音質(zhì)麥克風(fēng)無(wú)法讓語(yǔ)音輸入獲得最佳效果,從而無(wú)法在短時(shí)間內用上Siri。”
此外,帶寬問(wèn)題也可能影響語(yǔ)音的有效傳送,語(yǔ)音技術(shù)的流量要求主要看語(yǔ)音的質(zhì)量,越保真的語(yǔ)音傳輸量越大,現在主流的語(yǔ)音技術(shù)采用的都是16bit編碼和8bit編碼兩種。在速率低于1000比特/秒的極低比特率下,語(yǔ)音編碼的研究將大大有別于正常情況,比如要在某些帶寬特別窄的信道上傳輸語(yǔ)音,以及水聲通信、地下通信、戰略及保密話(huà)音通信等,要在這些情況下實(shí)現有效的語(yǔ)音識別,就必須處理聲音信號的特殊特征,如因為帶寬而延遲或減損等。
3、多語(yǔ)言混合識別以及無(wú)限詞匯識別方面
由于目前使用的聲學(xué)模型和語(yǔ)音模型太過(guò)于局限,以至用戶(hù)只能使用特定語(yǔ)音進(jìn)行特定詞匯的識別。如果突然從中文轉為英文,或者法文、俄文,計算機就會(huì )不知如何反應,而給出一堆不知所云的句子;或者用戶(hù)偶爾使用了某個(gè)專(zhuān)門(mén)領(lǐng)域的專(zhuān)業(yè)術(shù)語(yǔ),如 “信噪比"等,可能也會(huì )得到奇怪的反應。根據筆者的使用體驗,中文與英文夾雜,包括數字的夾雜識別會(huì )比較困難。
目前正在做語(yǔ)音方面的開(kāi)發(fā),還不方便公布。
云計算在安全和識別方面,凡是涉及到云端的,都要在服務(wù)器上實(shí)現,就以打電話(huà)、發(fā)短信來(lái)說(shuō),其實(shí)運營(yíng)商那里都有備份,本身有沒(méi)有安全問(wèn)題,其實(shí)只要管理規范,并且控制在幾家大公司范圍內,我相信不會(huì )太亂。電子郵件做了這么多年,安全性問(wèn)題也有,但是不能因為這樣就不用。
4、實(shí)用性方面
國外科技博主Michael Okuda對Siri的實(shí)用性抱懷疑態(tài)度。“這只是一個(gè)DEMO,目前來(lái)看根本談不上革 命。Siri無(wú)法進(jìn)行大段文字錄入和現場(chǎng)翻譯的語(yǔ)音識別,而且限定了必須在A(yíng)pp內的特定識別,總覺(jué)得又是個(gè)蘋(píng)果拋磚引玉教育用戶(hù)的動(dòng)作。”
他認為,語(yǔ)音輸入可能并非如此高效。“設想一下,我在搜索圖片,我會(huì )說(shuō)‘上、上、左、往下一個(gè),圖片編號3362,不對,左邊那個(gè)。’這簡(jiǎn)直比直接點(diǎn)擊那張圖片要慢很多。”Michael說(shuō)。“我認為,自然語(yǔ)言必然會(huì )遇到諸多限制。”
四、云平臺加速中文語(yǔ)音識別的來(lái)臨
Siri的推出吸引了業(yè)內對于語(yǔ)音識別技術(shù)的關(guān)注,據了解,此次Siri僅推出了英文、法文、德文版本,并且只能在iPhone 4S上面使用,這無(wú)疑對于專(zhuān)注中文語(yǔ)音技術(shù)的國內廠(chǎng)商帶來(lái)巨大利好。不過(guò)由于Siri并非單純語(yǔ)音識別,而更是語(yǔ)義識別,即理解自然語(yǔ)言并作出合理回應。中文自然語(yǔ)言的語(yǔ)義識別是Siri面對的難點(diǎn)與障礙。蘋(píng)果本身十分注重中國市場(chǎng),從iPhone 第一代的iPhone OS在發(fā)布之時(shí)就已包含中文語(yǔ)言及輸入法即可看出。
事實(shí)上,早在1997年,IBM公司就開(kāi)發(fā)出漢語(yǔ)ViaVoice語(yǔ)音識別系統,可以識別上海話(huà)、廣東話(huà)和四川話(huà)等地方口音的語(yǔ)音識別系統ViaVoice'98。它帶有一個(gè)32,000詞的基本詞匯表,可以擴展到65,000詞,還包括辦公常用詞條,具有“糾錯機制”,其平均識別率可以達到95%。而中科院自動(dòng)化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應用的“天語(yǔ)”中文語(yǔ)音系列產(chǎn)品——PattekASR,結束了中文語(yǔ)音識別產(chǎn)品自1998年以來(lái)一直由國外公司壟斷的歷史。
你可能還記得幾年前電視上出現過(guò)的“金立語(yǔ)音王”廣告,該款手機可以通過(guò)語(yǔ)音收發(fā)短信,同時(shí)還可以通過(guò)語(yǔ)音閱讀文檔資料,可以說(shuō)是國內手機廠(chǎng)商在語(yǔ)音識別上的最早嘗試。
國筆科技副總裁莊傳坤對電子工 程專(zhuān)輯記 者表示,類(lèi)似于金立語(yǔ)音王這種產(chǎn)品就屬于命令識別技術(shù),事先設定一些命令,或者命令組合,早期的金立語(yǔ)音王基本上就是在手機CPU上進(jìn)行處理,運算速度和存儲空間有限,只能識別有限的一千多條指令,體驗也不好。科大訊飛副總江濤則透露,今年金立基于科大訊飛的語(yǔ)音云做了一個(gè)新的版本,在云服務(wù)器上可以做到幾十萬(wàn)條的識別。
據了解,目前國內客戶(hù)對于語(yǔ)音技術(shù)的了解還處于起步階段,市面上完整成熟的中文語(yǔ)音解決方案還不多。科大訊飛董秘徐景明就對電子工 程專(zhuān) 輯記者表示,蘋(píng)果推廣Siri將從實(shí)際應用等方面加速行業(yè)發(fā)展與普及。
根據徐景明的介紹,科大訊飛目前通過(guò)兩種方式來(lái)培育語(yǔ)音識別業(yè)務(wù),一是開(kāi)發(fā)自身的產(chǎn)品訊飛口訊和訊飛語(yǔ)音輸入法,發(fā)展語(yǔ)音云、豐富數據庫,公司語(yǔ)音輸入法目前對標準普通話(huà)的識別正確率已提升到95%以上;二是向應用軟件開(kāi)發(fā)商們開(kāi)放語(yǔ)音云平臺接入,目前包括挖財在內的理財記賬軟件、凱立德在內的地圖軟件,都已內置了科大訊飛的語(yǔ)音識別功能。此外,公司還與中國電信合作推出了應用相關(guān)技術(shù)的通訊增強軟件。
自2010年10月28日科大訊飛“語(yǔ)音云”成功發(fā)布之日起,訊飛語(yǔ)音云合作伙伴已經(jīng)超過(guò)500家,包括新浪、搜狐、騰訊、聯(lián)想、挖財、樂(lè )么樂(lè )么等,語(yǔ)音云的用戶(hù)量也已經(jīng)超過(guò)2000萬(wàn),而除了科大訊飛,Nuance也在同樣搭建開(kāi)放的語(yǔ)音云平臺,開(kāi)發(fā)者可以給予其語(yǔ)音引擎開(kāi)發(fā)各種第三方的語(yǔ)音應用。
至于Siri所應用的人工智能方面,國內廠(chǎng)商中目前騰訊聯(lián)合中科院推出的小Q機器人是一大嘗試,可以實(shí)現部分思考和理解能力,相信隨著(zhù)iPhone 4s的大力推動(dòng)和智能手機的進(jìn)一步發(fā)展,中國廠(chǎng)商自行研發(fā)的具有人工智能的語(yǔ)音軟件將會(huì )很快問(wèn)世。
電子工程專(zhuān)輯
蘋(píng)果新品力推語(yǔ)音識別科大訊飛收獲利好 2011-10-11 |
訊飛語(yǔ)音閃耀2011年度中國國際呼叫中心管理大會(huì ) 2011-10-08 |
科大訊飛:現在的新興應用爆發(fā)+未來(lái)的想象力 2011-10-08 |
“語(yǔ)音及語(yǔ)言信息處理國家工程實(shí)驗室”正式揭牌 2011-09-28 |
訊飛聯(lián)合凱立德共同推出移動(dòng)導航系統V7.0語(yǔ)音版 2011-09-20 |