科大訊飛副總裁江濤：語音技術的三大種類

2011/10/14

　　引言：蘋果iPhone 4S的Siri功能推出，可謂是引起了人們對于智能語音技術的極大關注。其實，語音技術非常復雜，表象繁多，本刊通過采訪國內科大訊飛、國筆等專家對目前的語音市場進行梳理和探討。

一、不僅僅是語音，還是人工智能

　　盡管蘋果“教主”喬布斯離開了我們，盡管iPhone 5沒有入人們期望的那樣出現(xiàn)，但是iPhone 4S的推出仍然成功吸引了蘋果粉絲和業(yè)界的所有關注。根據美國電話電報公司(AT&T)透露，iPhone 4S在發(fā)布12小時之內就接到了20萬份訂單，而其中最引入注目的一大新功能，就是被稱為Siri的語音助手功能。

　　10月4日上午，蘋果全球產品副總裁Phil Schiller與負責iOS軟件的副總裁Scott Forstall在新品發(fā)布會上，隆重介紹了Siri。

什么是Siri？

　　Forstall在現(xiàn)場進行了演示，他拿起iPhone 4S，對手機問道：“今天天氣如何？”屏幕上立刻顯示出今天的天氣狀況。他又接著問，我用帶傘嗎？Siri馬上回答，今天會下雨。隨后，他還用這款應用演示了搜索和設置鬧鐘提、預約等功能。

　　Siri跟普通的語音搜索不一樣，它能明白你所說的，了解你的意思，甚至還能回答你的問題。那感覺就像真正擁有私人助理似的，而且是一位善解人意的私人助理。無論你用何種方式提問，它都能以人的思維去思考和反應，而不是以預設的程序答非所問。

　　Siri能為你做的不僅僅是提供答案，它還可以親自替你完成一些基本的事情。比如，你可以吩咐Siri發(fā)短信給你父親、提醒你預約牙醫(yī)、幫你查找到達目的地的路線，不用擔心Siri不夠聰明，因為它能夠思考完成這些事情需要運行哪些應用程序，還能明白你要打電話的準確對象。

　　Siri還包括傳聞中的“語音轉文字”的功能，你只需按下麥克風，把你想發(fā)送的內容說出來，Siri就可以將你所說的內容轉換成文字，并發(fā)送出去。除了發(fā)送短信外，Siri還集成到一些第三方應用，這樣，你只需動動嘴皮子，就能更新Facebook、發(fā)送Twitter消息或者即時聊天。

　　如果你認為Siri只是一個簡單的聲音控制軟件，而你的Android手機上的語音助手或NOKIA語音提示也可做到這點，那你就錯了。

　　我們不妨探究一下Siri的血統(tǒng)，這家最近剛被蘋果收購的公司，直接發(fā)端于美國軍方的CALO(Cognitive Assistant that Learns and Organizes)項目，這也是史上最大的人工智能項目，匯聚了全球人工智能方面的頂尖專家。

　　你如果看過好萊塢大導演斯皮爾伯格的電影《A I》，相信會對人工智能有一定了解，通過人工智能技術，機器人可以把“對話、自然語言理解、視覺、演說、機器學習、制定計劃、理性思考、服務代表全部融合到一起”。Siri的技術正源自人工智能，而不是簡單的搜索和語音識別。它能夠自主分析用戶發(fā)出的口語指令，并給出確切的回應和指導，完全不需要用戶預選學習使用方法。

　　在國外某科技博客錄制的一段視頻中，評測人員對Siri提出了許多含義模糊或有歧義的問題。比如：“附近有沒有什么浪漫的法國餐廳？”，比如：“天空為何是藍色的？”比如“鋼琴上有多少個八度？”對人類而言，這些句子再平常不過了，但要讓機器去理解這些變化多端的棘手詞匯，尤其是“浪漫”這種形容詞，那就極端困難了，然而這些問題Siri都可以回答。

　　你甚至還可以對Siri表白，對它說：“我愛你！”它的回答也很妙：“希望你不會對其它手機也這么說�！�

　　該評測人員隨后在博客中寫到：“Android系統(tǒng)的Voice Actions也是一項偉大的技術，但說真的，它和Siri不是同一個層面的產品。Siri非�？�，與之相比Voice Actions雖說確實讓我們省去了打字輸入、觸摸操作的工序，但操作太復雜，只有那些Geek會使用它。然而，媽媽們會選擇Siri�！�

二、語音技術的三大種類

　　除了人工智能，Siri的核心功能仍是基于語音識別的語音技術，其語音引擎來自Nuance，這家公司在全球手機輸入法上處于壟斷地位。

　　這一技術并非革命性的變革，早在計算機發(fā)明之前，自動語音識別的設想就已經被提上了議事日程，早期的聲碼器可被視作語音識別及合成的雛形。而1920年代生產的“Radio Rex”玩具狗可能是最早的語音識別器，當這只狗的名字被呼喚的時候，它能夠從底座上彈出來。

　　近二十年來，語音識別技術取得顯著進步，開始逐漸從實驗室走向市場。據了解，許多大公司如IBM、蘋果、微軟、Google、AT&T和NTT等早在多年前都對語音識別系統(tǒng)的實用化研究投以巨資。目前主流的語音技術方案包括IBM公司推出的Via Voice和Dragon System公司的Naturally Speaking, ，Nuance公司的Nuance Voice Platform語音平臺，Microsoft的Whisper,Sun的VoiceTone，以及科大訊飛的口訊等。

　　“語音技術是一個典型的交叉科學，涉及到很多方面，不是說有錢就能做的，是有一定門檻的。你可以去APP下載一個我們的軟件體驗一下”。根據科大訊飛副總江濤對電子工程專輯記者的介紹，目前語音技術大體上有三個分支：

　　第一類是語音合成技術(TTS)，就是把文字變成語音，能夠把文字讀出來的技術，這個技術相對來說發(fā)展最早，也比較成熟。

　　第二類是語音識別技術(ASR)，它又有幾個細分，比較技術成熟的有命令識別(voice command)，在有限的指定空間中實現(xiàn)你說的命令，早期很多手機上的語音識別很多就是這個層面。還有一個分支是語音評測，能夠對你說的不同語言的標準程度進行打分、評價與指導。

　　第三類是聲紋識別技術，因為語言中人的聲帶帶有獨特的物理特性，跟指紋、虹膜一樣每個人的聲音都是獨特的，目前這種技術主要用在聲音加密方面，可以識別不同人的聲音。

　　據江濤對電子工程專輯記者透露，目前最難實現(xiàn)的就是語音識別技術(ASR)，盡管業(yè)內普遍以識別率作為軟件評測的標準，但語音受影響的環(huán)境因素太多了，說話人的語氣、語速、外圍的噪音程度，麥克風的情況，尤其是云端識別，傳輸的信道好壞，很多很多因素都是不可控制的，“所以讓官方去測一個系統(tǒng)識別率是多少其實意義不大，因為每個人用的具體環(huán)境都不大一樣。最終做決定的還是消費者，他們會用自己的手機去投票”。

圖：科大訊飛副總裁江濤

三、語音技術面臨的諸多挑戰(zhàn)

　　據江濤介紹，目前語音識別技術在實現(xiàn)上還有幾大難點需要解決：

　　1、自適應方面

　　目前，象IBM的ViaVoice和Asiaworks的SPK都需要用戶在使用前進行幾百句話的訓練，以讓計算機適應你的聲音特征。這必然限制了語音識別技術的進一步應用，大量的訓練不僅讓用戶感到厭煩，而且加大了系統(tǒng)的負擔�，F(xiàn)實世界的用戶類型是多種多樣的，就聲音特征來講有男音、女音和童音的區(qū)別，此外，許多人的發(fā)音離標準發(fā)音差距甚遠，這就涉及到對口音或方言的處理。事實上，ViaVoice的應用前景也因為這一點打了折扣，只有普通話說得很好的用戶才可以在其中文版連續(xù)語音識別方面取得相對滿意的成績。

　　2、強健性方面

　　語音識別技術需要能排除各種環(huán)境因素的影響。目前，對語音識別效果影響最大的就是環(huán)境雜音或嗓音，在公共場合，你幾乎不可能指望手機能聽懂你的話，來自四面八方的聲音讓它茫然而不知所措。很顯然這極大地限制了語音技術的應用范圍，目前，要在嘈雜環(huán)境中使用語音識別技術必須有特殊的抗噪(Noise Cancellation)麥克風才能進行，這對多數用戶來說是不現(xiàn)實的。在公共場合中，個人能有意識地摒棄環(huán)境嗓音并從中獲取自己所需要的特定聲音，如何讓語音識別技術也能達成這一點呢？這的確是一個艱巨的任務。

　　某位業(yè)內人士在微博上表示：“與iPhone 4一樣，iPhone 4S也配有副麥克風，用來過濾背景雜音。使用過Nuance Dragon語音到文本產品的用戶無疑會對這種情形非常熟悉：在語音輸入時必須保證良好的音質并且減少雜音，即便這樣語音輸入結果也并非100%準確�；诖�，我們認為iPad和iPod touch上的低音質麥克風無法讓語音輸入獲得最佳效果，從而無法在短時間內用上Siri�！�

　　此外，帶寬問題也可能影響語音的有效傳送，語音技術的流量要求主要看語音的質量，越保真的語音傳輸量越大，現(xiàn)在主流的語音技術采用的都是16bit編碼和8bit編碼兩種。在速率低于1000比特/秒的極低比特率下，語音編碼的研究將大大有別于正常情況，比如要在某些帶寬特別窄的信道上傳輸語音，以及水聲通信、地下通信、戰(zhàn)略及保密話音通信等，要在這些情況下實現(xiàn)有效的語音識別，就必須處理聲音信號的特殊特征，如因為帶寬而延遲或減損等。

　　3、多語言混合識別以及無限詞匯識別方面

　　由于目前使用的聲學模型和語音模型太過于局限，以至用戶只能使用特定語音進行特定詞匯的識別。如果突然從中文轉為英文，或者法文、俄文，計算機就會不知如何反應，而給出一堆不知所云的句子；或者用戶偶爾使用了某個專門領域的專業(yè)術語，如 “信噪比"等，可能也會得到奇怪的反應。根據筆者的使用體驗，中文與英文夾雜，包括數字的夾雜識別會比較困難。

　　目前正在做語音方面的開發(fā)，還不方便公布。

　　云計算在安全和識別方面，凡是涉及到云端的，都要在服務器上實現(xiàn)，就以打電話、發(fā)短信來說，其實運營商那里都有備份，本身有沒有安全問題，其實只要管理規(guī)范，并且控制在幾家大公司范圍內，我相信不會太亂。電子郵件做了這么多年，安全性問題也有，但是不能因為這樣就不用。

　　4、實用性方面

　　國外科技博主Michael Okuda對Siri的實用性抱懷疑態(tài)度�！斑@只是一個DEMO，目前來看根本談不上革命。Siri無法進行大段文字錄入和現(xiàn)場翻譯的語音識別，而且限定了必須在App內的特定識別，總覺得又是個蘋果拋磚引玉教育用戶的動作。”

　　他認為，語音輸入可能并非如此高效�！霸O想一下，我在搜索圖片，我會說‘上、上、左、往下一個，圖片編號3362，不對，左邊那個�！@簡直比直接點擊那張圖片要慢很多�！盡ichael說。“我認為，自然語言必然會遇到諸多限制�！�

四、云平臺加速中文語音識別的來臨

　　Siri的推出吸引了業(yè)內對于語音識別技術的關注，據了解，此次Siri僅推出了英文、法文、德文版本，并且只能在iPhone 4S上面使用，這無疑對于專注中文語音技術的國內廠商帶來巨大利好。不過由于Siri并非單純語音識別，而更是語義識別，即理解自然語言并作出合理回應。中文自然語言的語義識別是Siri面對的難點與障礙。蘋果本身十分注重中國市場，從iPhone 第一代的iPhone OS在發(fā)布之時就已包含中文語言及輸入法即可看出。

　　事實上，早在1997年，IBM公司就開發(fā)出漢語ViaVoice語音識別系統(tǒng)，可以識別上海話、廣東話和四川話等地方口音的語音識別系統(tǒng)ViaVoice'98。它帶有一個32,000詞的基本詞匯表，可以擴展到65,000詞,還包括辦公常用詞條，具有“糾錯機制”，其平均識別率可以達到95%。而中科院自動化所及其所屬模式科技(Pattek)公司2002年發(fā)布了他們共同推出的面向不同計算平臺和應用的“天語”中文語音系列產品——PattekASR，結束了中文語音識別產品自1998年以來一直由國外公司壟斷的歷史。

　　你可能還記得幾年前電視上出現(xiàn)過的“金立語音王”廣告，該款手機可以通過語音收發(fā)短信，同時還可以通過語音閱讀文檔資料，可以說是國內手機廠商在語音識別上的最早嘗試。

　　國筆科技副總裁莊傳坤對電子工程專輯記者表示，類似于金立語音王這種產品就屬于命令識別技術，事先設定一些命令，或者命令組合，早期的金立語音王基本上就是在手機CPU上進行處理，運算速度和存儲空間有限，只能識別有限的一千多條指令，體驗也不好�？拼笥嶏w副總江濤則透露，今年金立基于科大訊飛的語音云做了一個新的版本，在云服務器上可以做到幾十萬條的識別。

　　據了解，目前國內客戶對于語音技術的了解還處于起步階段，市面上完整成熟的中文語音解決方案還不多�？拼笥嶏w董秘徐景明就對電子工程專輯記者表示，蘋果推廣Siri將從實際應用等方面加速行業(yè)發(fā)展與普及。

　　根據徐景明的介紹，科大訊飛目前通過兩種方式來培育語音識別業(yè)務，一是開發(fā)自身的產品訊飛口訊和訊飛語音輸入法，發(fā)展語音云、豐富數據庫，公司語音輸入法目前對標準普通話的識別正確率已提升到95%以上；二是向應用軟件開發(fā)商們開放語音云平臺接入，目前包括挖財在內的理財記賬軟件、凱立德在內的地圖軟件，都已內置了科大訊飛的語音識別功能。此外，公司還與中國電信合作推出了應用相關技術的通訊增強軟件。

　　自2010年10月28日科大訊飛“語音云”成功發(fā)布之日起，訊飛語音云合作伙伴已經超過500家，包括新浪、搜狐、騰訊、聯(lián)想、挖財、樂么樂么等,語音云的用戶量也已經超過2000萬，而除了科大訊飛，Nuance也在同樣搭建開放的語音云平臺，開發(fā)者可以給予其語音引擎開發(fā)各種第三方的語音應用。

　　至于Siri所應用的人工智能方面，國內廠商中目前騰訊聯(lián)合中科院推出的小Q機器人是一大嘗試，可以實現(xiàn)部分思考和理解能力，相信隨著iPhone 4s的大力推動和智能手機的進一步發(fā)展，中國廠商自行研發(fā)的具有人工智能的語音軟件將會很快問世。

共 3 頁：1 2 3

電子工程專輯