首頁>>>技術>>>語音應用>>>語音識別(ASR)　　語音識別產(chǎn)品

與電腦面談

周密陶建華 2007/07/06

　　人機交互技術(Human-Computer Interaction Techniques)是指通過計算機輸入、輸出設備，以有效的方式實現(xiàn)人與計算機對話的技術。隨著計算機的迅速普及，其使用者也從專家一級迅速擴大到了未受過專門訓練的普通用戶，由此強烈地刺激了人機交互界面的進步。

　　目前，語音識別與合成、臉部表情識別與生成、身體姿態(tài)分析等一系列研究成果開始集成到電腦中，計算機開始逐漸以語音和視頻的方式與人類進行交互。

　　本期專題從一個多模態(tài)融合面對面人機交互系統(tǒng)著手，介紹了人機交互領域關鍵的個性化語音生成、說話人頭像、多模態(tài)情感識別等技術的最新研究和發(fā)展狀況。

　　多模態(tài)融合建立人機交互平臺

　　采用鍵盤和鼠標是人與計算機之間的典型交互方式。為了讓計算機更具擬人化的特征，并更好地為人類服務，從上世紀八十年代開始，語音識別與合成、臉部表情識別與生成、身體姿態(tài)分析等一系列研究成果開始集成到電腦中，計算機開始逐漸以語音和視頻的方式與人類進行交互。然而，即使如此，目前絕大多數(shù)的研究依然停留在單個通道上，語音和視頻通常作為兩個完全不相關的課題進行研究。大多數(shù)人在人機對話平臺的設計上，要么是單純的語音信息，要么只采用臉部表情或姿態(tài)信息。真正將這些信息有效地融合并不多見。由于人們在相互交流過程中，語音、臉部表情和姿態(tài)往往是同步動作，所表達的含義相互影響。舉例來說:

　　當一個人說: “你今天做得不錯�！比绻怯藐愂龌蚋袊@語氣，通常意味著肯定或表揚; 如果是采用疑問語氣，則可能是表達一定的詢問或諷刺意味; 而即使用陳述語氣表達，但臉部表情卻是一副不屑一顧的樣子，這通常也意味著諷刺。

　　從這個簡單的例子可以看出，在人與人的對話中，表達的文字信息與不同語氣和臉部表情的組合，可能會出現(xiàn)不同的含義。然而大部分傳統(tǒng)的人機對話研究，主要側重在單純的語音識別、合成和文字理解上，既缺乏對語氣（或情感）的識別，也缺乏有效的語音與表情同步分析工作。

　　事實上，從多模態(tài)融合（本文主要指語音和視頻信息融合）角度建立人機交互平臺已是近幾年非常熱的研究課題，與此相關的研究計劃還包括: 情感計算、普適計算等。國外有許多單位在從事相關技術的研究，如: MIT，CMU，UIUC，IBM等大學或跨國公司，國內(nèi)也有清華大學，浙江大學，中科院自動化所、計算所、軟件所等相關單位在從事這方面的研究。即使如此，從總體上看，多模態(tài)融合方法的研究還只是處在初期階段。本文以中科院自動化所建立的一個多模態(tài)天氣查詢系統(tǒng)為例，介紹一種人與電腦進行面對面對話的交互模式。在這種交互模式中，用戶可以綜合使用語音、臉部表情、語氣等信息傳輸希望表達的內(nèi)容，而電腦則將獲得的天氣信息采用語音合成、人臉動畫等方式生動地進行信息反饋。

　　系統(tǒng)概述

　　多模態(tài)天氣查詢系統(tǒng)包括語音識別及理解(ASR)、人臉跟蹤與表情識別(TRK)、說話人頭像(ANM)、語音中情感識別(SP)、多模態(tài)對話管理(CTR)等幾個主要模塊。

　　系統(tǒng)與互聯(lián)網(wǎng)中天氣信息源進行結合，實現(xiàn)了一定的天氣查詢功能: 當用戶進入攝像頭視野范圍內(nèi)時，系統(tǒng)自動運行人臉跟蹤模塊進行人臉定位，找到人臉的有效區(qū)域，然后對眼角、嘴角等特征點進行定位。

　　如果用戶沒有先開始說話，系統(tǒng)會用語音合成系統(tǒng)先說: “您好，請問我能為您做些什么？”當用戶開始說話后，系統(tǒng)的人臉表情跟蹤與識別、語音識別、語氣檢測及語音中情感識別三個模塊同時并行工作。語音識別的結果會自動轉到對話管理模塊，在對話管理模塊中，將根據(jù)語音語氣和情感識別、人臉表情識別或動作識別等信息綜合進行判斷，若是提問天氣信息，則將時間或地點信息輸入至中心控制模塊，時間和地點信息不完整時，系統(tǒng)會針對缺失信息提問和確認，直到得到完整有效的信息后開始啟動查詢，然后將結果通過虛擬角色表達出來。

　　說話過程中，表情識別模塊實時分析用戶的表情及其他非語音信息，輔助語言的理解，如: 點頭或搖頭的動作可以幫助信息的確認，而用戶如果出現(xiàn)了驚訝、厭惡表情的時候，說明對話過程出現(xiàn)了問題，系統(tǒng)需要對關鍵信息進行重新確認了。

　　下面分別對不同模塊的工作方式進行說明。

　　人臉跟蹤與表情識別

圖2 說話人頭像系統(tǒng)

　　該模塊首先進行人臉檢測，對眼角、嘴角等特征點進行粗略定位，然后根據(jù)小波變換進行精細定位，最終得到較為精細的人臉表情參數(shù)初始值。之后運用Lucas-Kanade算法進行特征點的跟蹤，利用跟蹤得到的特征點位置首先根據(jù)Ekman的人臉表情編碼規(guī)則進行編碼，然后根據(jù)所得到的編碼結果進行表情識別。該系統(tǒng)不僅實現(xiàn)了全自動的特征點定位和跟蹤，而且根據(jù)人臉特征點的分布模型，可以對跟蹤時特征點的丟失現(xiàn)象進行補償。

　　2007-7-1語音識別及理解模塊

　　語音識別及理解模塊用于自動監(jiān)聽用戶的語音表達內(nèi)容。常用的方法有兩大類: 一種是使用關鍵詞檢出的方法，主要是找出一句話里有代表意義的詞，根據(jù)這些詞就可以理解整句話的意思，在這種情況下，輸入的語句必須嚴格符合系統(tǒng)所規(guī)定的語法結構; 另一種方法是基于連續(xù)語音的搜索，與一般聽寫機不同的是，這種搜索過程會把對話系統(tǒng)所應用領域的信息添加進去，這種方法效果比較好，但是在處理集外數(shù)據(jù)時則往往容易表現(xiàn)不穩(wěn)定。

　　由于天氣查詢是一個限定領域的系統(tǒng)，因此我們選擇了基于關鍵詞檢索的方法。在識別的過程中: 首先利用聲學模型得到候選子詞序列; 然后在詞法層得到候選詞條序列，最后根據(jù)語法規(guī)則，即語言模型進行句法層的搜索，得到最終的識別結果。

　　在模塊工作過程中，系統(tǒng)首先判斷語音識別的結果是否符合查詢語法，若符合語法，則給出正確的天氣查詢語言。比如已經(jīng)識別出來了“北京” 和“今天”，比照事先制定的語法結構，發(fā)現(xiàn)它們分別屬于“地點”和“時間”類別，所以可以理解為: “需要查詢北京明天的天氣”。當系統(tǒng)無法識別出用于表達的含義時，會進行智能反饋，保證整個天氣查詢系統(tǒng)正常運行。

　　在語音處理模塊中，我們還融入了語氣檢測和情感識別算法，能夠動態(tài)地根據(jù)用戶的語音狀態(tài)，判斷該說話人用的是陳述語氣、疑問語氣還是感嘆語氣，在有典型情緒的地方，還能夠輸出該說話人的情感狀態(tài)。這些信息與語音識別結果一起送入到整個查詢系統(tǒng)的控制模塊中進行集中決策。

　　說話人頭像模塊

　　說話人頭像模塊包括語音合成、人臉動畫兩個子模塊。語音合成模塊是為了將天氣查詢獲得信息表達出來。本文中，語音合成模塊是基于中科院自動化所設計的“繪聲”語音合成系統(tǒng)，該系統(tǒng)能夠將任意輸入的文本，以連續(xù)自然的聲音朗讀出來，并能夠處理中文普通話、粵語、英語等多種語言或方言。

　　“面對面的人機交互系統(tǒng)”實現(xiàn)方法，涉及語音合成與識別、表情識別與生成、自然語音理解、多模態(tài)融合方法等多個學科領域。通過本項目的研究，可以對傳統(tǒng)人機交互模式進行革命性的革新，使之更符合現(xiàn)代信息社會獲取信息的需要。同時在無人值守環(huán)境、智能交互平臺、虛擬現(xiàn)實、數(shù)字化娛樂等領域中，均有很強的應用性，可以不分語種和人群地提供服務，對信息服務業(yè)的長期發(fā)展具有非常重要的意義。

　　語音合成模塊配上人臉動畫，可以實現(xiàn)栩栩如生的說話人頭像系統(tǒng)，讓用戶感覺到是在與一個虛擬人進行交互。人臉動畫的研究難點是如何與語音合成系統(tǒng)進行配合，既保持語音、唇形、舌位的同步，又要能夠恰如其分地生成不同的表情。

　　中心控制（CTRL模塊）

　　中心控制模塊相當于整個虛擬人的“大腦”，它從“眼睛”，“耳朵”處得到對方的語音和表情信息，經(jīng)過處理以后，做出適當反饋，再由說話人頭像系統(tǒng)說出來，它實際上實現(xiàn)了對話管理和多模態(tài)融合兩方面的功能。

　　對話管理

　　目前主要的對話管理的控制策略大概有三種，包括基于有限狀態(tài)機(finite-state based)、基于框架(frame based)以及基于代理(agent based)的控制策略。

　　在總結了前人工作經(jīng)驗和結合本系統(tǒng)的實際問題的基礎上，我們在對話管理的具體實現(xiàn)上，將框架理論和有限狀態(tài)自動機理論相結合，完成了一個智能的對話管理模塊。我們先將對話管理限制在天氣查詢領域。在系統(tǒng)中，通過人機之間的對話和確認，系統(tǒng)需要得到要查詢的時間和地點信息之后反饋查詢結果。

　　我們?yōu)樾枰玫降男畔⑾仍O計了一個槽結構如下: Slot_name表示槽名，在本系統(tǒng)中就是City和Date。Slot_value 指示該項信息是否已經(jīng)得到，所以有2個狀態(tài): Known 和Unkown。

　　圖3中，初始狀態(tài)為Unknown，當收到用戶提供的信息時，槽狀態(tài)轉化為Known，即為終止狀態(tài)。當再收到用戶的信息時，槽狀態(tài)不變，只是具體的槽值發(fā)生了變化。

　　根據(jù)系統(tǒng)的實際需求，同時考慮到系統(tǒng)的靈活性和魯棒性，我們設計了如下的狀態(tài)轉移過程: S0為系統(tǒng)的初始狀態(tài)，S3為系統(tǒng)的終止狀態(tài)。狀態(tài)轉換過程中的轉換條件，是信息融合的結果，不僅僅是語音信號的信息，也包含了圖像的信息。

　　多模態(tài)融合

　　所謂多模態(tài)融合就是將電腦“看到”和“聽到”的信息都考慮進來，幫助理解說話人真正的意圖。在語音識別中加入語法后大大提高了語音識別的準確率，而人臉跟蹤模塊能夠得到現(xiàn)有人臉的絕對位置和特征點的相對位置，知道人臉絕對位置的變化可以幫助判斷點頭、搖頭的動作，而利用特征點的相對位置信息可以知道說話人的情感狀態(tài)信息，在我們的系統(tǒng)中主要用到了點頭、搖頭信息和“厭惡”，“高興”2種情感狀態(tài)來判斷對電腦提出問題的確認和人是否對電腦的回答表示滿意。在今后的工作中，我們可以考慮結合語音分析的結果，利用雙模態(tài)的信息，提高情感識別的準確性和魯棒性。

通信世界網(wǎng)(www.cww.net.cn)

相關鏈接:

空口有憑：用聲音來付賬 2007-06-25

智能通信終端的關鍵技術研究 2007-06-19

聲控你的系統(tǒng) Vista語音識別全體驗 2007-03-22

跨國巨頭猛攻語音識別技術 2007-03-09

自動語音系統(tǒng)：虛擬人物提供人性化呼叫業(yè)務 2007-01-23

分類信息:
固安县| 昭平县| 卢氏县| 宜丰县| 綦江县| 佛山市| 成武县| 兴和县| 乌拉特后旗| 镇原县| 景洪市| 青海省| 南阳市| 岳阳县| 马尔康县| 阿尔山市| 汶上县| 三明市| 汾阳市| 中方县| 峡江县| 兰西县| 阳朔县| 金乡县| 台州市| 中江县| 江源县| 通河县| 江永县| 灌阳县| 金山区| 寻乌县| 天台县| 百色市| 扎鲁特旗| 广南县| 赞皇县| 于都县| 喀喇沁旗| 永春县| 准格尔旗|