首頁(yè)>>>技術(shù)>>>語(yǔ)音應(yīng)用>>>語(yǔ)音合成(TTS)　　語(yǔ)音合成產(chǎn)品

智能通信終端的關(guān)鍵技術(shù)研究

時(shí)和平　馬秀芳 2007/06/19

　　現(xiàn)代通信正向著數(shù)字化、寬帶化、綜合化、智能化和個(gè)人化方向發(fā)展，由此對(duì)通信終端的高性能、智能化、多媒體化、微型化和移動(dòng)化等提出了更高的要求。本文主要論述了通信終端智能化的智能語(yǔ)音接口；語(yǔ)音的合成、識(shí)別及門戶；網(wǎng)絡(luò)的自適應(yīng)等關(guān)鍵技術(shù)。

　　顧名思義，智能通信終端是指具有智能特征的通信終端，其根本特點(diǎn)應(yīng)是具有視、聽(tīng)、說(shuō)、理解和自學(xué)習(xí)、推理的能力，表現(xiàn)在具有擬人化的人機(jī)接口和友好的操作界面，應(yīng)用語(yǔ)音識(shí)別和合成、文字識(shí)別、自然語(yǔ)言理解等語(yǔ)音及語(yǔ)言處理關(guān)鍵技術(shù)。

　　智能語(yǔ)音接口技術(shù)

　　智能接口，也稱人機(jī)接口，是在智能通信終端上建立的一種擬人化的人機(jī)交互環(huán)境。智能接口技術(shù)除涉及人工智能和計(jì)算機(jī)科學(xué)外，與信號(hào)處理、電子技術(shù)、語(yǔ)言學(xué)、認(rèn)知科學(xué)，乃至現(xiàn)代心理學(xué)、神經(jīng)生理學(xué)等都有密切的關(guān)系。目前，在該領(lǐng)域中的主要研究課題有多媒體與虛擬現(xiàn)實(shí)、語(yǔ)音識(shí)別和合成、文字識(shí)別、計(jì)算機(jī)視覺(jué)和圖像識(shí)別、自然語(yǔ)言處理、自動(dòng)摘要及機(jī)器翻譯等。由于語(yǔ)音是人類最自然的通信手段，人們的信息交互有60%是通過(guò)語(yǔ)音通信來(lái)完成的，因此目前通信終端的主體也基于語(yǔ)音通信。

　　1.語(yǔ)音識(shí)別

　　語(yǔ)音識(shí)別是對(duì)智能通信終端最具影響的技術(shù)之一。由于早期的語(yǔ)音識(shí)別是采用“模板法”來(lái)實(shí)現(xiàn)的，而這種基于模板匹配的語(yǔ)音識(shí)別，只能滿足小詞匯量、特定人、非連續(xù)語(yǔ)音識(shí)別的需求，無(wú)法提供人們對(duì)大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別的需要。智能通信的需求反過(guò)來(lái)又對(duì)語(yǔ)音識(shí)別技術(shù)提出了更高的要求。

　　電話語(yǔ)音識(shí)別　在高速數(shù)據(jù)信道和便攜數(shù)據(jù)終端普及前，我們最先利用的仍是傳統(tǒng)語(yǔ)音電話信道和一般意義上的電話終端，這就意味著需要識(shí)別經(jīng)過(guò)整個(gè)電話信道而產(chǎn)生了某種畸變的語(yǔ)音信號(hào)。打電話時(shí)用戶可能會(huì)處于各種嘈雜的環(huán)境，因此噪聲背景下的語(yǔ)音識(shí)別也是要解決的問(wèn)題。電話語(yǔ)音識(shí)別具有最迫切的市場(chǎng)需求，目前已成為國(guó)內(nèi)外研究和開發(fā)的重點(diǎn)。

　　語(yǔ)音識(shí)別的魯棒性　各種噪聲，特別是移動(dòng)電話所產(chǎn)生的編碼和信道噪聲，是識(shí)別原始語(yǔ)音信號(hào)的一大干擾，且此類干擾隨機(jī)發(fā)生。因此，需要一種能對(duì)各種環(huán)境、信道噪聲進(jìn)行過(guò)濾或在識(shí)別過(guò)程中加以糾正的技術(shù)。針對(duì)我國(guó)用戶群隨機(jī)的情況，需要建立普適度更高的模型或?qū)Σ煌谝糇詣?dòng)適應(yīng)，使系統(tǒng)具有較強(qiáng)的魯棒性。

　　口語(yǔ)語(yǔ)音識(shí)別　當(dāng)電話語(yǔ)音識(shí)別技術(shù)用于實(shí)現(xiàn)電話查詢、自動(dòng)接線及專門業(yè)務(wù)(旅游信息服務(wù)等)操作時(shí)，會(huì)出現(xiàn)許多不符合語(yǔ)法的情況，產(chǎn)生冗余信息，這給語(yǔ)音識(shí)別帶來(lái)大的挑戰(zhàn)。

　　多語(yǔ)種語(yǔ)音識(shí)別　網(wǎng)絡(luò)時(shí)代必然會(huì)涉及多種語(yǔ)言，例如語(yǔ)音識(shí)別用于大都市電話查詢服務(wù)時(shí)，用戶可能使用漢語(yǔ)普通話、廣東話，或者英語(yǔ)進(jìn)行查詢，這就要求識(shí)別系統(tǒng)有多語(yǔ)種識(shí)別的能力。

　　分布式語(yǔ)音識(shí)別　分布式語(yǔ)音識(shí)別是在客戶終端上做語(yǔ)音信號(hào)參數(shù)提取工作，而僅將參數(shù)傳送到服務(wù)器端作進(jìn)一步識(shí)別。不僅解決了信道噪聲和現(xiàn)有編寫終端計(jì)算存儲(chǔ)能力的問(wèn)題，還具有占用帶寬窄、綜合成本低等優(yōu)點(diǎn)，但其前提是提取的參數(shù)必須標(biāo)準(zhǔn)化。隨著個(gè)人、移動(dòng)通信的需要，通信終端日趨小型化，各種掌上設(shè)備正進(jìn)入人們的生活，如手機(jī)、商務(wù)通、個(gè)人助理等。用語(yǔ)音方式是解決輸入/出及各種操作問(wèn)題的最理想手段。

　　2.語(yǔ)音合成

　　語(yǔ)音合成技術(shù)是使電腦或通信終端具有類似于人一樣的說(shuō)話能力，是當(dāng)今時(shí)代信息產(chǎn)業(yè)的重要研究領(lǐng)域。和語(yǔ)音識(shí)別相比，語(yǔ)音合成技術(shù)更成熟一些，是最有希望首先在智能通信終端中得到普遍應(yīng)用并形成帶動(dòng)作用的一項(xiàng)關(guān)鍵技術(shù)。目前，語(yǔ)音合成有高自然度、芯片級(jí)、多語(yǔ)種、分步式和口語(yǔ)式的語(yǔ)音合成等發(fā)展方向。按照智能化程度的不同層次，語(yǔ)音合成可分為三個(gè)層次：從文字到語(yǔ)音；概念到語(yǔ)音；意向到語(yǔ)音的合成。為合成出高質(zhì)量的語(yǔ)音，除依賴于各種規(guī)則，還必須對(duì)文字內(nèi)容進(jìn)行很好的理解。文字/語(yǔ)音的轉(zhuǎn)換系統(tǒng)。

　　(1)文本分析

　　文本分析旨在確定文本中哪些是詞、短語(yǔ)或句子；每個(gè)字應(yīng)如何發(fā)音，一般由文本預(yù)處理、分詞、韻律分析等環(huán)節(jié)組成。

　　此外，隨著機(jī)器學(xué)習(xí)和數(shù)據(jù)發(fā)掘技術(shù)的發(fā)展，出現(xiàn)了基于數(shù)據(jù)驅(qū)動(dòng)技術(shù)的文本分析方法。例如采用決策樹或神經(jīng)網(wǎng)絡(luò)方法，從大量的數(shù)據(jù)中通過(guò)訓(xùn)練生成韻律模型。

　　(2)語(yǔ)音合成器

　　目前，最流行的語(yǔ)音合成器是采用基音同步的重疊相加(PSOLA)方法來(lái)實(shí)現(xiàn)波形拼接(這里指的基音或基頻是語(yǔ)音韻律特征中的音高或聲調(diào)的物理表現(xiàn)參數(shù)，基頻曲線變化直接導(dǎo)致聲調(diào)變化)。PSOLA算法的基本思想是以語(yǔ)音信號(hào)基音周期為分析對(duì)象，在基音同步基礎(chǔ)上對(duì)信號(hào)聲調(diào)和時(shí)長(zhǎng)進(jìn)行修改。

　　然而通過(guò)信號(hào)處理的方法調(diào)整韻律特性，終究會(huì)對(duì)音色有一定的損傷。即使是PSOLA算法，當(dāng)韻律修正的范圍變大時(shí)，音色也會(huì)有明顯下降�；凇奥�(tīng)感量化”波形拼接方法，其出發(fā)點(diǎn)就是語(yǔ)音合成時(shí)盡量減少動(dòng)用合成器來(lái)調(diào)整韻律參數(shù)。由于“聽(tīng)感量化”單元從原始發(fā)音中直接截取，避免了用語(yǔ)音合成器調(diào)整參數(shù)時(shí)對(duì)音質(zhì)的損害，保證了合成系統(tǒng)具有接近自然發(fā)音的音質(zhì)，其自然度達(dá)到用戶可接受的程度。

　　3.自然語(yǔ)言理解

　　語(yǔ)音識(shí)別與合成都離不開自然語(yǔ)言理解。語(yǔ)音識(shí)別中音/字轉(zhuǎn)換和語(yǔ)音合成中字/音轉(zhuǎn)換的正確率都取決于對(duì)語(yǔ)言理解的深度。從智能通信終端的應(yīng)用看，系統(tǒng)有時(shí)不僅要正確識(shí)別用戶的發(fā)音，而且要理解它，然后執(zhí)行相應(yīng)命令。此外，系統(tǒng)還需產(chǎn)生合適的回答，比如反問(wèn)、反饋信息給用戶。這就會(huì)涉及自然語(yǔ)言生成，這是語(yǔ)音合成的更高一級(jí)階段，和自然語(yǔ)言理解更是密不可分。

　　隨著Internet迅速擴(kuò)張，自然語(yǔ)言理解的任務(wù)不僅是建立一種能夠像人那樣理解自然語(yǔ)言的計(jì)算模型，還需建立模擬人腦語(yǔ)言感知過(guò)程的理論模式。為使智能通信終端做到對(duì)口語(yǔ)和文字的理解，并及時(shí)響應(yīng)，必須以語(yǔ)法與語(yǔ)義相結(jié)合，解決有關(guān)知識(shí)(特別是模糊知識(shí))的表達(dá)與利用問(wèn)題。自然語(yǔ)言理解在智能通信終端中的應(yīng)用還包括：自然語(yǔ)言查詢處理提供各種類型的相似性及或然性匹配，并返回按等級(jí)排列的檢索結(jié)果；矯正利用語(yǔ)音識(shí)別自動(dòng)生成的腳本中的錯(cuò)誤；影像標(biāo)題生成和摘要?jiǎng)?chuàng)建(如略覽版的生成)等。

　　目前語(yǔ)音識(shí)別和語(yǔ)音合成采用統(tǒng)計(jì)的方法，即通過(guò)對(duì)大量的語(yǔ)料統(tǒng)計(jì)來(lái)實(shí)現(xiàn)自然語(yǔ)言理解的方法，如二/三元語(yǔ)言模型等非常實(shí)用，突破了傳統(tǒng)分析方法對(duì)不受限語(yǔ)句的理解。

　　智能終端與語(yǔ)音門戶

　　在當(dāng)今飛速發(fā)展的信息社會(huì)，人們?cè)絹?lái)越希望可以通過(guò)移動(dòng)電話等通信終端設(shè)備來(lái)實(shí)現(xiàn)快速便捷的交流，即通過(guò)移動(dòng)電話等通信終端設(shè)備接入網(wǎng)絡(luò)，并操縱遠(yuǎn)程信息源得到信息或進(jìn)行電子化交易。目前，采用撥號(hào)接入網(wǎng)絡(luò)的過(guò)程耗時(shí)長(zhǎng)，而語(yǔ)音接入僅需短短幾秒，這無(wú)疑將大大提高接入速度。另外，這種語(yǔ)音技術(shù)不但令使用者無(wú)論在何時(shí)、何地，都可以利用手中的通信終端設(shè)備輕松接入網(wǎng)絡(luò)，得到所需信息或購(gòu)買商品及服務(wù)，還將大大提高商業(yè)自動(dòng)化程度、降低企業(yè)的運(yùn)營(yíng)成本、改善服務(wù)質(zhì)量、使商務(wù)活動(dòng)更加便捷。

　　語(yǔ)音門戶，是指基于互聯(lián)網(wǎng)平臺(tái)，應(yīng)用語(yǔ)音識(shí)別、合成和轉(zhuǎn)換技術(shù)，為固定和移動(dòng)電話用戶提供用語(yǔ)音訪問(wèn)互聯(lián)網(wǎng)并獲取網(wǎng)上信息的門戶，是全球互聯(lián)網(wǎng)發(fā)展的最新趨勢(shì)之一。語(yǔ)音門戶融合了語(yǔ)音、CTI、Web、電信、計(jì)算機(jī)及網(wǎng)絡(luò)等技術(shù)，構(gòu)筑出新一代語(yǔ)音上網(wǎng)平臺(tái)，將使更多的用戶能夠通過(guò)各類通信終端快速接入互聯(lián)網(wǎng)，為企業(yè)帶來(lái)新的業(yè)務(wù)增長(zhǎng)點(diǎn)。從技術(shù)角度看，隨著自動(dòng)語(yǔ)音識(shí)別(ASR)、文本轉(zhuǎn)語(yǔ)音(TTS)、口語(yǔ)對(duì)話等人機(jī)交互技術(shù)、信息處理技術(shù)的發(fā)展，以及像語(yǔ)音瀏覽器、嵌入式語(yǔ)音瀏覽器等Voice Web技術(shù)的成熟，再加上移動(dòng)用戶終端種類與功能的快速增加，使語(yǔ)音門戶在通信終端中的應(yīng)用提供了可靠保證。

　　1.分布式語(yǔ)音處理

　�、俜植际秸Z(yǔ)音識(shí)別在智能通信終端中，語(yǔ)音識(shí)別的首要目標(biāo)是使用戶不用敲擊或遠(yuǎn)離鍵盤即可輕松訪問(wèn)大部分計(jì)算機(jī)服務(wù)和通信系統(tǒng)。分布語(yǔ)音識(shí)別(DSR)技術(shù)采用客戶機(jī)/服務(wù)器方法，整個(gè)處理過(guò)程分布于終端(如手機(jī))和網(wǎng)絡(luò)兩端。終端執(zhí)行語(yǔ)音特征參數(shù)提取任務(wù)，是語(yǔ)音識(shí)別系統(tǒng)的前端。提取的特征參數(shù)通過(guò)數(shù)據(jù)信道傳輸至遠(yuǎn)程的后端識(shí)別器。這樣，傳輸信道不影響識(shí)別系統(tǒng)性能，信道不變性的目的得以實(shí)現(xiàn)。而目前基于因特網(wǎng)上的分布式語(yǔ)音識(shí)別是由呼叫中心發(fā)展而來(lái)，并已在基于包交換的VoIP網(wǎng)絡(luò)進(jìn)行了測(cè)試。

　�、诜植际秸Z(yǔ)音合成在基于網(wǎng)絡(luò)應(yīng)用，特別是客戶機(jī)/服務(wù)器典型模式下，終端與服務(wù)端之間的實(shí)現(xiàn)之間必然存在矛盾，加上信道、處理資源與用戶體驗(yàn)等多方面的綜合影響，語(yǔ)音合成的分布式實(shí)現(xiàn)了把傳統(tǒng)TTS的處理環(huán)節(jié)分解成為標(biāo)準(zhǔn)化的實(shí)現(xiàn)模塊：文本分析和語(yǔ)音合成模塊。文本分析模塊涉及詞典、分詞、各種語(yǔ)言學(xué)處理，將占用較大資源，可放在服務(wù)器端實(shí)現(xiàn)，即經(jīng)過(guò)處理后形成音韻序列再傳送到終端上去；語(yǔ)音合成模塊則可以放在終端上實(shí)現(xiàn)。由于音韻序列基本上由符號(hào)數(shù)據(jù)組成，與直接傳送文本數(shù)據(jù)占用的信道帶寬差不多，不影響傳輸性能，但卻反而使終端擺脫了文本分析的壓力，降低了成本。當(dāng)然，標(biāo)記語(yǔ)言和數(shù)據(jù)傳送的格式必須標(biāo)準(zhǔn)化，才能得以推廣。

　　2.語(yǔ)音瀏覽器

　　語(yǔ)音瀏覽器通過(guò)語(yǔ)音的方式瀏覽VXML(基于XML國(guó)際標(biāo)準(zhǔn)的語(yǔ)音可擴(kuò)展標(biāo)識(shí)語(yǔ)言，像HTML定義圖形化網(wǎng)頁(yè)界面一樣定義了語(yǔ)音界面)內(nèi)容，并通過(guò)Transcoder服務(wù)器直接瀏覽網(wǎng)上HTML格式的內(nèi)容。它主要包括Voice XML、電話語(yǔ)音接入、TTS/ASR資源及Transcoder服務(wù)器。

　　語(yǔ)音瀏覽器是希望使普通電話作為瀏覽器終端，應(yīng)用自然語(yǔ)言交互的方式取得相關(guān)的定制信息服務(wù)或Internet上發(fā)布的Web信息內(nèi)容，通過(guò)電話終端與服務(wù)器端的語(yǔ)音接人、ASR/TTS、VXML服務(wù)器以及各種Transcoder，構(gòu)成相當(dāng)于IE的瀏覽器，實(shí)現(xiàn)語(yǔ)音上網(wǎng)工程的核心組成部分。應(yīng)用語(yǔ)音瀏覽器可使我們輕松地用電話、電視等電子或電氣設(shè)備走進(jìn)互聯(lián)網(wǎng)；在將來(lái)，它還可支持其他模式和媒體，如用筆、圖像和傳感器作為輸入，用活動(dòng)圖像和激勵(lì)控制作為輸出；便攜式語(yǔ)音瀏覽器可在任何地方使用，網(wǎng)上信息便隨手可得，特別是那些有電話或移動(dòng)電話的用戶更是如此；為盲人用戶提供方便的實(shí)用接口，使他們獲得和正常人一樣的工作空間；跨越各種平臺(tái)，像電腦、電視、電話(包括移動(dòng)電話)等，使人們隨時(shí)隨地獲取所需的網(wǎng)上信息，并用語(yǔ)音表達(dá)出來(lái)。隨著其中各項(xiàng)技術(shù)的發(fā)展、成熟和完善，語(yǔ)音瀏覽器市場(chǎng)將會(huì)迅速發(fā)展起來(lái)。

　　3.嵌入式語(yǔ)音瀏覽器

　　嵌入式語(yǔ)音瀏覽器支持HTTP或者WAP等傳輸協(xié)議及HTML、JavaScript、擴(kuò)展XML、Voice XML等標(biāo)記語(yǔ)言，可完成網(wǎng)頁(yè)瀏覽功能；適合在非PC的嵌入式信息設(shè)備中存在、運(yùn)行，并完整實(shí)現(xiàn)通信傳輸協(xié)議、標(biāo)記語(yǔ)言所規(guī)定的功能；根據(jù)嵌入式設(shè)備的多樣性需求進(jìn)行裁減和修改，并滿足信息設(shè)備使用者方便地獲取文字、圖像、聲音、視頻等信息；可廣泛應(yīng)用到各種非PC設(shè)備或通信終端，如電視上的機(jī)頂盒、交互式數(shù)字電視、手持上網(wǎng)設(shè)備(移動(dòng)電話、掌上電腦、個(gè)人數(shù)字助理等)、互聯(lián)網(wǎng)電話、網(wǎng)絡(luò)終端、電子圖書閱讀器、公共信息查詢系統(tǒng)等。

　　網(wǎng)絡(luò)的自適應(yīng)

　　在通信時(shí)，智能通信終端應(yīng)能自動(dòng)檢測(cè)所連接的網(wǎng)絡(luò)及傳輸方式(模擬通信網(wǎng)絡(luò)、數(shù)字通信網(wǎng)絡(luò)、ISDN、無(wú)線連接等)，選擇最優(yōu)化的網(wǎng)絡(luò)及傳輸方式，自適應(yīng)地連接到所選擇的網(wǎng)絡(luò)中去，以所選擇的網(wǎng)絡(luò)要求的處理方式處理數(shù)據(jù)，開展工作。

　　未來(lái)的智能通信終端不僅小巧便攜，使用簡(jiǎn)便，而且功能多，能滿足人們各種不同種類信息傳輸?shù)男枨�。無(wú)論何時(shí)何地，用戶都可隨機(jī)發(fā)送或接收信息，并能根據(jù)所處環(huán)境，自適應(yīng)地選擇最優(yōu)傳輸網(wǎng)絡(luò)。未來(lái)的智能通信終端不再是只能進(jìn)行某一種通信的終端，而是可以進(jìn)行許多種類的通信。

中國(guó)聯(lián)通網(wǎng)站

劉慶峰丈量夢(mèng)想到現(xiàn)實(shí)的距離 2006-06-05

語(yǔ)音技術(shù)“入侵”電話服務(wù) 顛覆傳統(tǒng)通信 2006-03-10

手機(jī)里的語(yǔ)音技術(shù)，你了解嗎？ 2006-02-24

基于鼎銘可編程交換機(jī)的大型分布式TTS系統(tǒng) 2006-02-07

分類信息: 技術(shù)_多媒體通信終端_文摘
岫岩| 衡水市| 乌兰察布市| 沧州市| 亚东县| 碌曲县| 华池县| 理塘县| 安乡县| 光山县| 海盐县| 喀喇| 景德镇市| 松原市| 张家界市| 阜新| 永昌县| 格尔木市| 缙云县| 仁化县| 开阳县| 遂宁市| 宁津县| 怀柔区| 荔波县| 合肥市| 应城市| 望奎县| 鹤庆县| 舒兰市| 白河县| 合川市| 台湾省| 通榆县| 进贤县| 泗水县| 阿克陶县| 江北区| 栾城县| 自贡市| 车致|