首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音識別(ASR)  語(yǔ)音識別產(chǎn)品

與電腦面談

周密 陶建華 2007/07/06

  人機交互技術(shù)(Human-Computer Interaction Techniques)是指通過(guò)計算機輸入、輸出設備,以有效的方式實(shí)現人與計算機對話(huà)的技術(shù)。隨著(zhù)計算機的迅速普及,其使用者也從專(zhuān)家一級迅速擴大到了未受過(guò)專(zhuān)門(mén)訓練的普通用戶(hù),由此強烈地刺激了人機交互界面的進(jìn)步。

  目前,語(yǔ)音識別與合成、臉部表情識別與生成、身體姿態(tài)分析等一系列研究成果開(kāi)始集成到電腦中,計算機開(kāi)始逐漸以語(yǔ)音和視頻的方式與人類(lèi)進(jìn)行交互。

  本期專(zhuān)題從一個(gè)多模態(tài)融合面對面人機交互系統著(zhù)手,介紹了人機交互領(lǐng)域關(guān)鍵的個(gè)性化語(yǔ)音生成、說(shuō)話(huà)人頭像、多模態(tài)情感識別等技術(shù)的最新研究和發(fā)展狀況。

  多模態(tài)融合建立人機交互平臺

  采用鍵盤(pán)和鼠標是人與計算機之間的典型交互方式。為了讓計算機更具擬人化的特征,并更好地為人類(lèi)服務(wù),從上世紀八十年代開(kāi)始,語(yǔ)音識別與合成、臉部表情識別與生成、身體姿態(tài)分析等一系列研究成果開(kāi)始集成到電腦中,計算機開(kāi)始逐漸以語(yǔ)音和視頻的方式與人類(lèi)進(jìn)行交互。然而,即使如此,目前絕大多數的研究依然停留在單個(gè)通道上,語(yǔ)音和視頻通常作為兩個(gè)完全不相關(guān)的課題進(jìn)行研究。大多數人在人機對話(huà)平臺的設計上,要么是單純的語(yǔ)音信息,要么只采用臉部表情或姿態(tài)信息。真正將這些信息有效地融合并不多見(jiàn)。由于人們在相互交流過(guò)程中,語(yǔ)音、臉部表情和姿態(tài)往往是同步動(dòng)作,所表達的含義相互影響。舉例來(lái)說(shuō):

  當一個(gè)人說(shuō): “你今天做得不錯。”如果是用陳述或感嘆語(yǔ)氣,通常意味著(zhù)肯定或表?yè)P; 如果是采用疑問(wèn)語(yǔ)氣,則可能是表達一定的詢(xún)問(wèn)或諷刺意味; 而即使用陳述語(yǔ)氣表達,但臉部表情卻是一副不屑一顧的樣子,這通常也意味著(zhù)諷刺。

  從這個(gè)簡(jiǎn)單的例子可以看出,在人與人的對話(huà)中,表達的文字信息與不同語(yǔ)氣和臉部表情的組合,可能會(huì )出現不同的含義。然而大部分傳統的人機對話(huà)研究,主要側重在單純的語(yǔ)音識別、合成和文字理解上,既缺乏對語(yǔ)氣(或情感)的識別,也缺乏有效的語(yǔ)音與表情同步分析工作。

  事實(shí)上,從多模態(tài)融合(本文主要指語(yǔ)音和視頻信息融合)角度建立人機交互平臺已是近幾年非常熱的研究課題,與此相關(guān)的研究計劃還包括: 情感計算、普適計算等。國外有許多單位在從事相關(guān)技術(shù)的研究,如: MIT,CMU,UIUC,IBM等大學(xué)或跨國公司,國內也有清華大學(xué),浙江大學(xué),中科院自動(dòng)化所、計算所、軟件所等相關(guān)單位在從事這方面的研究。即使如此,從總體上看,多模態(tài)融合方法的研究還只是處在初期階段。本文以中科院自動(dòng)化所建立的一個(gè)多模態(tài)天氣查詢(xún)系統為例,介紹一種人與電腦進(jìn)行面對面對話(huà)的交互模式。在這種交互模式中,用戶(hù)可以綜合使用語(yǔ)音、臉部表情、語(yǔ)氣等信息傳輸希望表達的內容,而電腦則將獲得的天氣信息采用語(yǔ)音合成、人臉動(dòng)畫(huà)等方式生動(dòng)地進(jìn)行信息反饋。

  系統概述

  多模態(tài)天氣查詢(xún)系統包括語(yǔ)音識別及理解(ASR)、人臉跟蹤與表情識別(TRK)、說(shuō)話(huà)人頭像(ANM)、語(yǔ)音中情感識別(SP)、多模態(tài)對話(huà)管理(CTR)等幾個(gè)主要模塊。

  系統與互聯(lián)網(wǎng)中天氣信息源進(jìn)行結合,實(shí)現了一定的天氣查詢(xún)功能: 當用戶(hù)進(jìn)入攝像頭視野范圍內時(shí),系統自動(dòng)運行人臉跟蹤模塊進(jìn)行人臉定位,找到人臉的有效區域,然后對眼角、嘴角等特征點(diǎn)進(jìn)行定位。

  如果用戶(hù)沒(méi)有先開(kāi)始說(shuō)話(huà),系統會(huì )用語(yǔ)音合成系統先說(shuō): “您好,請問(wèn)我能為您做些什么?”當用戶(hù)開(kāi)始說(shuō)話(huà)后,系統的人臉表情跟蹤與識別、語(yǔ)音識別、語(yǔ)氣檢測及語(yǔ)音中情感識別三個(gè)模塊同時(shí)并行工作。語(yǔ)音識別的結果會(huì )自動(dòng)轉到對話(huà)管理模塊,在對話(huà)管理模塊中,將根據語(yǔ)音語(yǔ)氣和情感識別、人臉表情識別或動(dòng)作識別等信息綜合進(jìn)行判斷,若是提問(wèn)天氣信息,則將時(shí)間或地點(diǎn)信息輸入至中心控制模塊,時(shí)間和地點(diǎn)信息不完整時(shí),系統會(huì )針對缺失信息提問(wèn)和確認,直到得到完整有效的信息后開(kāi)始啟動(dòng)查詢(xún),然后將結果通過(guò)虛擬角色表達出來(lái)。

  說(shuō)話(huà)過(guò)程中,表情識別模塊實(shí)時(shí)分析用戶(hù)的表情及其他非語(yǔ)音信息,輔助語(yǔ)言的理解,如: 點(diǎn)頭或搖頭的動(dòng)作可以幫助信息的確認,而用戶(hù)如果出現了驚訝、厭惡表情的時(shí)候,說(shuō)明對話(huà)過(guò)程出現了問(wèn)題,系統需要對關(guān)鍵信息進(jìn)行重新確認了。

  下面分別對不同模塊的工作方式進(jìn)行說(shuō)明。

  人臉跟蹤與表情識別

圖2 說(shuō)話(huà)人頭像系統

  該模塊首先進(jìn)行人臉檢測,對眼角、嘴角等特征點(diǎn)進(jìn)行粗略定位,然后根據小波變換進(jìn)行精細定位,最終得到較為精細的人臉表情參數初始值。之后運用Lucas-Kanade算法進(jìn)行特征點(diǎn)的跟蹤,利用跟蹤得到的特征點(diǎn)位置首先根據Ekman的人臉表情編碼規則進(jìn)行編碼,然后根據所得到的編碼結果進(jìn)行表情識別。該系統不僅實(shí)現了全自動(dòng)的特征點(diǎn)定位和跟蹤,而且根據人臉特征點(diǎn)的分布模型,可以對跟蹤時(shí)特征點(diǎn)的丟失現象進(jìn)行補償。

  2007-7-1語(yǔ)音識別及理解模塊

  語(yǔ)音識別及理解模塊用于自動(dòng)監聽(tīng)用戶(hù)的語(yǔ)音表達內容。常用的方法有兩大類(lèi): 一種是使用關(guān)鍵詞檢出的方法,主要是找出一句話(huà)里有代表意義的詞,根據這些詞就可以理解整句話(huà)的意思,在這種情況下,輸入的語(yǔ)句必須嚴格符合系統所規定的語(yǔ)法結構; 另一種方法是基于連續語(yǔ)音的搜索,與一般聽(tīng)寫(xiě)機不同的是,這種搜索過(guò)程會(huì )把對話(huà)系統所應用領(lǐng)域的信息添加進(jìn)去,這種方法效果比較好,但是在處理集外數據時(shí)則往往容易表現不穩定。

  由于天氣查詢(xún)是一個(gè)限定領(lǐng)域的系統,因此我們選擇了基于關(guān)鍵詞檢索的方法。在識別的過(guò)程中: 首先利用聲學(xué)模型得到候選子詞序列; 然后在詞法層得到候選詞條序列,最后根據語(yǔ)法規則,即語(yǔ)言模型進(jìn)行句法層的搜索,得到最終的識別結果。

  在模塊工作過(guò)程中,系統首先判斷語(yǔ)音識別的結果是否符合查詢(xún)語(yǔ)法,若符合語(yǔ)法,則給出正確的天氣查詢(xún)語(yǔ)言。比如已經(jīng)識別出來(lái)了“北京” 和“今天”,比照事先制定的語(yǔ)法結構,發(fā)現它們分別屬于“地點(diǎn)”和“時(shí)間”類(lèi)別,所以可以理解為: “需要查詢(xún)北京明天的天氣”。當系統無(wú)法識別出用于表達的含義時(shí),會(huì )進(jìn)行智能反饋,保證整個(gè)天氣查詢(xún)系統正常運行。

  在語(yǔ)音處理模塊中,我們還融入了語(yǔ)氣檢測和情感識別算法,能夠動(dòng)態(tài)地根據用戶(hù)的語(yǔ)音狀態(tài),判斷該說(shuō)話(huà)人用的是陳述語(yǔ)氣、疑問(wèn)語(yǔ)氣還是感嘆語(yǔ)氣,在有典型情緒的地方,還能夠輸出該說(shuō)話(huà)人的情感狀態(tài)。這些信息與語(yǔ)音識別結果一起送入到整個(gè)查詢(xún)系統的控制模塊中進(jìn)行集中決策。

  說(shuō)話(huà)人頭像模塊

  說(shuō)話(huà)人頭像模塊包括語(yǔ)音合成、人臉動(dòng)畫(huà)兩個(gè)子模塊。語(yǔ)音合成模塊是為了將天氣查詢(xún)獲得信息表達出來(lái)。本文中,語(yǔ)音合成模塊是基于中科院自動(dòng)化所設計的“繪聲”語(yǔ)音合成系統,該系統能夠將任意輸入的文本,以連續自然的聲音朗讀出來(lái),并能夠處理中文普通話(huà)、粵語(yǔ)、英語(yǔ)等多種語(yǔ)言或方言。

  “面對面的人機交互系統”實(shí)現方法,涉及語(yǔ)音合成與識別、表情識別與生成、自然語(yǔ)音理解、多模態(tài)融合方法等多個(gè)學(xué)科領(lǐng)域。通過(guò)本項目的研究,可以對傳統人機交互模式進(jìn)行革命性的革新,使之更符合現代信息社會(huì )獲取信息的需要。同時(shí)在無(wú)人值守環(huán)境、智能交互平臺、虛擬現實(shí)、數字化娛樂(lè )等領(lǐng)域中,均有很強的應用性,可以不分語(yǔ)種和人群地提供服務(wù),對信息服務(wù)業(yè)的長(cháng)期發(fā)展具有非常重要的意義。

  語(yǔ)音合成模塊配上人臉動(dòng)畫(huà),可以實(shí)現栩栩如生的說(shuō)話(huà)人頭像系統,讓用戶(hù)感覺(jué)到是在與一個(gè)虛擬人進(jìn)行交互。人臉動(dòng)畫(huà)的研究難點(diǎn)是如何與語(yǔ)音合成系統進(jìn)行配合,既保持語(yǔ)音、唇形、舌位的同步,又要能夠恰如其分地生成不同的表情。

  中心控制(CTRL模塊)

  中心控制模塊相當于整個(gè)虛擬人的“大腦”,它從“眼睛”,“耳朵”處得到對方的語(yǔ)音和表情信息,經(jīng)過(guò)處理以后,做出適當反饋,再由說(shuō)話(huà)人頭像系統說(shuō)出來(lái),它實(shí)際上實(shí)現了對話(huà)管理和多模態(tài)融合兩方面的功能。

  對話(huà)管理

  目前主要的對話(huà)管理的控制策略大概有三種,包括基于有限狀態(tài)機(finite-state based)、基于框架(frame based)以及基于代理(agent based)的控制策略。

  在總結了前人工作經(jīng)驗和結合本系統的實(shí)際問(wèn)題的基礎上,我們在對話(huà)管理的具體實(shí)現上,將框架理論和有限狀態(tài)自動(dòng)機理論相結合,完成了一個(gè)智能的對話(huà)管理模塊。我們先將對話(huà)管理限制在天氣查詢(xún)領(lǐng)域。在系統中,通過(guò)人機之間的對話(huà)和確認,系統需要得到要查詢(xún)的時(shí)間和地點(diǎn)信息之后反饋查詢(xún)結果。

  我們?yōu)樾枰玫降男畔⑾仍O計了一個(gè)槽結構如下: Slot_name表示槽名,在本系統中就是City和Date。Slot_value 指示該項信息是否已經(jīng)得到,所以有2個(gè)狀態(tài): Known 和Unkown。

  圖3中,初始狀態(tài)為Unknown,當收到用戶(hù)提供的信息時(shí),槽狀態(tài)轉化為Known,即為終止狀態(tài)。當再收到用戶(hù)的信息時(shí),槽狀態(tài)不變,只是具體的槽值發(fā)生了變化。




  根據系統的實(shí)際需求,同時(shí)考慮到系統的靈活性和魯棒性,我們設計了如下的狀態(tài)轉移過(guò)程: S0為系統的初始狀態(tài),S3為系統的終止狀態(tài)。狀態(tài)轉換過(guò)程中的轉換條件,是信息融合的結果,不僅僅是語(yǔ)音信號的信息,也包含了圖像的信息。

  多模態(tài)融合

  所謂多模態(tài)融合就是將電腦“看到”和“聽(tīng)到”的信息都考慮進(jìn)來(lái),幫助理解說(shuō)話(huà)人真正的意圖。在語(yǔ)音識別中加入語(yǔ)法后大大提高了語(yǔ)音識別的準確率,而人臉跟蹤模塊能夠得到現有人臉的絕對位置和特征點(diǎn)的相對位置,知道人臉絕對位置的變化可以幫助判斷點(diǎn)頭、搖頭的動(dòng)作,而利用特征點(diǎn)的相對位置信息可以知道說(shuō)話(huà)人的情感狀態(tài)信息,在我們的系統中主要用到了點(diǎn)頭、搖頭信息和“厭惡”,“高興”2種情感狀態(tài)來(lái)判斷對電腦提出問(wèn)題的確認和人是否對電腦的回答表示滿(mǎn)意。在今后的工作中,我們可以考慮結合語(yǔ)音分析的結果,利用雙模態(tài)的信息,提高情感識別的準確性和魯棒性。

通信世界網(wǎng)(www.cww.net.cn)



相關(guān)鏈接:
空口有憑:用聲音來(lái)付賬 2007-06-25
智能通信終端的關(guān)鍵技術(shù)研究 2007-06-19
聲控你的系統 Vista語(yǔ)音識別全體驗 2007-03-22
跨國巨頭猛攻語(yǔ)音識別技術(shù) 2007-03-09
自動(dòng)語(yǔ)音系統:虛擬人物提供人性化呼叫業(yè)務(wù) 2007-01-23

分類(lèi)信息:        
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 阿尔山市| 石屏县| 壶关县| 潍坊市| 屏南县| 濮阳县| 龙江县| 浪卡子县| 达拉特旗| 庆阳市| 马关县| 临颍县| 长顺县| 通渭县| 杭锦后旗| 封丘县| 大埔县| 永靖县| 庆城县| 和田市| 邢台县| 北票市| 阿城市| 沧源| 民和| 天祝| 慈利县| 民权县| 突泉县| 元氏县| 余庆县| 济南市| 同德县| 宁安市| 平昌县| 仙游县| 治县。| 泗阳县| 咸阳市| 交城县| 阳新县| http://444 http://444 http://444 http://444 http://444 http://444