首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

智能通信終端的關(guān)鍵技術(shù)研究

時(shí)和平 馬秀芳 2007/06/19

  現代通信正向著(zhù)數字化、寬帶化、綜合化、智能化和個(gè)人化方向發(fā)展,由此對通信終端的高性能、智能化、多媒體化、微型化和移動(dòng)化等提出了更高的要求。本文主要論述了通信終端智能化的智能語(yǔ)音接口;語(yǔ)音的合成、識別及門(mén)戶(hù);網(wǎng)絡(luò )的自適應等關(guān)鍵技術(shù)。

  顧名思義,智能通信終端是指具有智能特征的通信終端,其根本特點(diǎn)應是具有視、聽(tīng)、說(shuō)、理解和自學(xué)習、推理的能力,表現在具有擬人化的人機接口和友好的操作界面,應用語(yǔ)音識別和合成、文字識別、自然語(yǔ)言理解等語(yǔ)音及語(yǔ)言處理關(guān)鍵技術(shù)。

  智能語(yǔ)音接口技術(shù)

  智能接口,也稱(chēng)人機接口,是在智能通信終端上建立的一種擬人化的人機交互環(huán)境。智能接口技術(shù)除涉及人工智能和計算機科學(xué)外,與信號處理、電子技術(shù)、語(yǔ)言學(xué)、認知科學(xué),乃至現代心理學(xué)、神經(jīng)生理學(xué)等都有密切的關(guān)系。目前,在該領(lǐng)域中的主要研究課題有多媒體與虛擬現實(shí)、語(yǔ)音識別和合成、文字識別、計算機視覺(jué)和圖像識別、自然語(yǔ)言處理、自動(dòng)摘要及機器翻譯等。由于語(yǔ)音是人類(lèi)最自然的通信手段,人們的信息交互有60%是通過(guò)語(yǔ)音通信來(lái)完成的,因此目前通信終端的主體也基于語(yǔ)音通信。

  1.語(yǔ)音識別

  語(yǔ)音識別是對智能通信終端最具影響的技術(shù)之一。由于早期的語(yǔ)音識別是采用“模板法”來(lái)實(shí)現的,而這種基于模板匹配的語(yǔ)音識別,只能滿(mǎn)足小詞匯量、特定人、非連續語(yǔ)音識別的需求,無(wú)法提供人們對大詞匯量、非特定人、連續語(yǔ)音識別的需要。智能通信的需求反過(guò)來(lái)又對語(yǔ)音識別技術(shù)提出了更高的要求。

  電話(huà)語(yǔ)音識別 在高速數據信道和便攜數據終端普及前,我們最先利用的仍是傳統語(yǔ)音電話(huà)信道和一般意義上的電話(huà)終端,這就意味著(zhù)需要識別經(jīng)過(guò)整個(gè)電話(huà)信道而產(chǎn)生了某種畸變的語(yǔ)音信號。打電話(huà)時(shí)用戶(hù)可能會(huì )處于各種嘈雜的環(huán)境,因此噪聲背景下的語(yǔ)音識別也是要解決的問(wèn)題。電話(huà)語(yǔ)音識別具有最迫切的市場(chǎng)需求,目前已成為國內外研究和開(kāi)發(fā)的重點(diǎn)。

  語(yǔ)音識別的魯棒性 各種噪聲,特別是移動(dòng)電話(huà)所產(chǎn)生的編碼和信道噪聲,是識別原始語(yǔ)音信號的一大干擾,且此類(lèi)干擾隨機發(fā)生。因此,需要一種能對各種環(huán)境、信道噪聲進(jìn)行過(guò)濾或在識別過(guò)程中加以糾正的技術(shù)。針對我國用戶(hù)群隨機的情況,需要建立普適度更高的模型或對不同口音自動(dòng)適應,使系統具有較強的魯棒性。

  口語(yǔ)語(yǔ)音識別 當電話(huà)語(yǔ)音識別技術(shù)用于實(shí)現電話(huà)查詢(xún)、自動(dòng)接線(xiàn)及專(zhuān)門(mén)業(yè)務(wù)(旅游信息服務(wù)等)操作時(shí),會(huì )出現許多不符合語(yǔ)法的情況,產(chǎn)生冗余信息,這給語(yǔ)音識別帶來(lái)大的挑戰。

  多語(yǔ)種語(yǔ)音識別 網(wǎng)絡(luò )時(shí)代必然會(huì )涉及多種語(yǔ)言,例如語(yǔ)音識別用于大都市電話(huà)查詢(xún)服務(wù)時(shí),用戶(hù)可能使用漢語(yǔ)普通話(huà)、廣東話(huà),或者英語(yǔ)進(jìn)行查詢(xún),這就要求識別系統有多語(yǔ)種識別的能力。

  分布式語(yǔ)音識別 分布式語(yǔ)音識別是在客戶(hù)終端上做語(yǔ)音信號參數提取工作,而僅將參數傳送到服務(wù)器端作進(jìn)一步識別。不僅解決了信道噪聲和現有編寫(xiě)終端計算存儲能力的問(wèn)題,還具有占用帶寬窄、綜合成本低等優(yōu)點(diǎn),但其前提是提取的參數必須標準化。隨著(zhù)個(gè)人、移動(dòng)通信的需要,通信終端日趨小型化,各種掌上設備正進(jìn)入人們的生活,如手機、商務(wù)通、個(gè)人助理等。用語(yǔ)音方式是解決輸入/出及各種操作問(wèn)題的最理想手段。

  2.語(yǔ)音合成

  語(yǔ)音合成技術(shù)是使電腦或通信終端具有類(lèi)似于人一樣的說(shuō)話(huà)能力,是當今時(shí)代信息產(chǎn)業(yè)的重要研究領(lǐng)域。和語(yǔ)音識別相比,語(yǔ)音合成技術(shù)更成熟一些,是最有希望首先在智能通信終端中得到普遍應用并形成帶動(dòng)作用的一項關(guān)鍵技術(shù)。目前,語(yǔ)音合成有高自然度、芯片級、多語(yǔ)種、分步式和口語(yǔ)式的語(yǔ)音合成等發(fā)展方向。按照智能化程度的不同層次,語(yǔ)音合成可分為三個(gè)層次:從文字到語(yǔ)音;概念到語(yǔ)音;意向到語(yǔ)音的合成。為合成出高質(zhì)量的語(yǔ)音,除依賴(lài)于各種規則,還必須對文字內容進(jìn)行很好的理解。文字/語(yǔ)音的轉換系統。

  (1)文本分析

  文本分析旨在確定文本中哪些是詞、短語(yǔ)或句子;每個(gè)字應如何發(fā)音,一般由文本預處理、分詞、韻律分析等環(huán)節組成。

  此外,隨著(zhù)機器學(xué)習和數據發(fā)掘技術(shù)的發(fā)展,出現了基于數據驅動(dòng)技術(shù)的文本分析方法。例如采用決策樹(shù)或神經(jīng)網(wǎng)絡(luò )方法,從大量的數據中通過(guò)訓練生成韻律模型。

  (2)語(yǔ)音合成器

  目前,最流行的語(yǔ)音合成器是采用基音同步的重疊相加(PSOLA)方法來(lái)實(shí)現波形拼接(這里指的基音或基頻是語(yǔ)音韻律特征中的音高或聲調的物理表現參數,基頻曲線(xiàn)變化直接導致聲調變化)。PSOLA算法的基本思想是以語(yǔ)音信號基音周期為分析對象,在基音同步基礎上對信號聲調和時(shí)長(cháng)進(jìn)行修改。

  然而通過(guò)信號處理的方法調整韻律特性,終究會(huì )對音色有一定的損傷。即使是PSOLA算法,當韻律修正的范圍變大時(shí),音色也會(huì )有明顯下降。基于“聽(tīng)感量化”波形拼接方法,其出發(fā)點(diǎn)就是語(yǔ)音合成時(shí)盡量減少動(dòng)用合成器來(lái)調整韻律參數。由于“聽(tīng)感量化”單元從原始發(fā)音中直接截取,避免了用語(yǔ)音合成器調整參數時(shí)對音質(zhì)的損害,保證了合成系統具有接近自然發(fā)音的音質(zhì),其自然度達到用戶(hù)可接受的程度。

  3.自然語(yǔ)言理解

  語(yǔ)音識別與合成都離不開(kāi)自然語(yǔ)言理解。語(yǔ)音識別中音/字轉換和語(yǔ)音合成中字/音轉換的正確率都取決于對語(yǔ)言理解的深度。從智能通信終端的應用看,系統有時(shí)不僅要正確識別用戶(hù)的發(fā)音,而且要理解它,然后執行相應命令。此外,系統還需產(chǎn)生合適的回答,比如反問(wèn)、反饋信息給用戶(hù)。這就會(huì )涉及自然語(yǔ)言生成,這是語(yǔ)音合成的更高一級階段,和自然語(yǔ)言理解更是密不可分。

  隨著(zhù)Internet迅速擴張,自然語(yǔ)言理解的任務(wù)不僅是建立一種能夠像人那樣理解自然語(yǔ)言的計算模型,還需建立模擬人腦語(yǔ)言感知過(guò)程的理論模式。為使智能通信終端做到對口語(yǔ)和文字的理解,并及時(shí)響應,必須以語(yǔ)法與語(yǔ)義相結合,解決有關(guān)知識(特別是模糊知識)的表達與利用問(wèn)題。自然語(yǔ)言理解在智能通信終端中的應用還包括:自然語(yǔ)言查詢(xún)處理提供各種類(lèi)型的相似性及或然性匹配,并返回按等級排列的檢索結果;矯正利用語(yǔ)音識別自動(dòng)生成的腳本中的錯誤;影像標題生成和摘要創(chuàng )建(如略覽版的生成)等。

  目前語(yǔ)音識別和語(yǔ)音合成采用統計的方法,即通過(guò)對大量的語(yǔ)料統計來(lái)實(shí)現自然語(yǔ)言理解的方法,如二/三元語(yǔ)言模型等非常實(shí)用,突破了傳統分析方法對不受限語(yǔ)句的理解。

  智能終端與語(yǔ)音門(mén)戶(hù)

  在當今飛速發(fā)展的信息社會(huì ),人們越來(lái)越希望可以通過(guò)移動(dòng)電話(huà)等通信終端設備來(lái)實(shí)現快速便捷的交流,即通過(guò)移動(dòng)電話(huà)等通信終端設備接入網(wǎng)絡(luò ),并操縱遠程信息源得到信息或進(jìn)行電子化交易。目前,采用撥號接入網(wǎng)絡(luò )的過(guò)程耗時(shí)長(cháng),而語(yǔ)音接入僅需短短幾秒,這無(wú)疑將大大提高接入速度。另外,這種語(yǔ)音技術(shù)不但令使用者無(wú)論在何時(shí)、何地,都可以利用手中的通信終端設備輕松接入網(wǎng)絡(luò ),得到所需信息或購買(mǎi)商品及服務(wù),還將大大提高商業(yè)自動(dòng)化程度、降低企業(yè)的運營(yíng)成本、改善服務(wù)質(zhì)量、使商務(wù)活動(dòng)更加便捷。

  語(yǔ)音門(mén)戶(hù),是指基于互聯(lián)網(wǎng)平臺,應用語(yǔ)音識別、合成和轉換技術(shù),為固定和移動(dòng)電話(huà)用戶(hù)提供用語(yǔ)音訪(fǎng)問(wèn)互聯(lián)網(wǎng)并獲取網(wǎng)上信息的門(mén)戶(hù),是全球互聯(lián)網(wǎng)發(fā)展的最新趨勢之一。語(yǔ)音門(mén)戶(hù)融合了語(yǔ)音、CTI、Web、電信、計算機及網(wǎng)絡(luò )等技術(shù),構筑出新一代語(yǔ)音上網(wǎng)平臺,將使更多的用戶(hù)能夠通過(guò)各類(lèi)通信終端快速接入互聯(lián)網(wǎng),為企業(yè)帶來(lái)新的業(yè)務(wù)增長(cháng)點(diǎn)。從技術(shù)角度看,隨著(zhù)自動(dòng)語(yǔ)音識別(ASR)、文本轉語(yǔ)音(TTS)、口語(yǔ)對話(huà)等人機交互技術(shù)、信息處理技術(shù)的發(fā)展,以及像語(yǔ)音瀏覽器、嵌入式語(yǔ)音瀏覽器等Voice Web技術(shù)的成熟,再加上移動(dòng)用戶(hù)終端種類(lèi)與功能的快速增加,使語(yǔ)音門(mén)戶(hù)在通信終端中的應用提供了可靠保證。

  1.分布式語(yǔ)音處理

  ①分布式語(yǔ)音識別在智能通信終端中,語(yǔ)音識別的首要目標是使用戶(hù)不用敲擊或遠離鍵盤(pán)即可輕松訪(fǎng)問(wèn)大部分計算機服務(wù)和通信系統。分布語(yǔ)音識別(DSR)技術(shù)采用客戶(hù)機/服務(wù)器方法,整個(gè)處理過(guò)程分布于終端(如手機)和網(wǎng)絡(luò )兩端。終端執行語(yǔ)音特征參數提取任務(wù),是語(yǔ)音識別系統的前端。提取的特征參數通過(guò)數據信道傳輸至遠程的后端識別器。這樣,傳輸信道不影響識別系統性能,信道不變性的目的得以實(shí)現。而目前基于因特網(wǎng)上的分布式語(yǔ)音識別是由呼叫中心發(fā)展而來(lái),并已在基于包交換的VoIP網(wǎng)絡(luò )進(jìn)行了測試。

  ②分布式語(yǔ)音合成在基于網(wǎng)絡(luò )應用,特別是客戶(hù)機/服務(wù)器典型模式下,終端與服務(wù)端之間的實(shí)現之間必然存在矛盾,加上信道、處理資源與用戶(hù)體驗等多方面的綜合影響,語(yǔ)音合成的分布式實(shí)現了把傳統TTS的處理環(huán)節分解成為標準化的實(shí)現模塊:文本分析和語(yǔ)音合成模塊。文本分析模塊涉及詞典、分詞、各種語(yǔ)言學(xué)處理,將占用較大資源,可放在服務(wù)器端實(shí)現,即經(jīng)過(guò)處理后形成音韻序列再傳送到終端上去;語(yǔ)音合成模塊則可以放在終端上實(shí)現。由于音韻序列基本上由符號數據組成,與直接傳送文本數據占用的信道帶寬差不多,不影響傳輸性能,但卻反而使終端擺脫了文本分析的壓力,降低了成本。當然,標記語(yǔ)言和數據傳送的格式必須標準化,才能得以推廣。

  2.語(yǔ)音瀏覽器

  語(yǔ)音瀏覽器通過(guò)語(yǔ)音的方式瀏覽VXML(基于XML國際標準的語(yǔ)音可擴展標識語(yǔ)言,像HTML定義圖形化網(wǎng)頁(yè)界面一樣定義了語(yǔ)音界面)內容,并通過(guò)Transcoder服務(wù)器直接瀏覽網(wǎng)上HTML格式的內容。它主要包括Voice XML、電話(huà)語(yǔ)音接入、TTS/ASR資源及Transcoder服務(wù)器。

  語(yǔ)音瀏覽器是希望使普通電話(huà)作為瀏覽器終端,應用自然語(yǔ)言交互的方式取得相關(guān)的定制信息服務(wù)或Internet上發(fā)布的Web信息內容,通過(guò)電話(huà)終端與服務(wù)器端的語(yǔ)音接人、ASR/TTS、VXML服務(wù)器以及各種Transcoder,構成相當于IE的瀏覽器,實(shí)現語(yǔ)音上網(wǎng)工程的核心組成部分。應用語(yǔ)音瀏覽器可使我們輕松地用電話(huà)、電視等電子或電氣設備走進(jìn)互聯(lián)網(wǎng);在將來(lái),它還可支持其他模式和媒體,如用筆、圖像和傳感器作為輸入,用活動(dòng)圖像和激勵控制作為輸出;便攜式語(yǔ)音瀏覽器可在任何地方使用,網(wǎng)上信息便隨手可得,特別是那些有電話(huà)或移動(dòng)電話(huà)的用戶(hù)更是如此;為盲人用戶(hù)提供方便的實(shí)用接口,使他們獲得和正常人一樣的工作空間;跨越各種平臺,像電腦、電視、電話(huà)(包括移動(dòng)電話(huà))等,使人們隨時(shí)隨地獲取所需的網(wǎng)上信息,并用語(yǔ)音表達出來(lái)。隨著(zhù)其中各項技術(shù)的發(fā)展、成熟和完善,語(yǔ)音瀏覽器市場(chǎng)將會(huì )迅速發(fā)展起來(lái)。

  3.嵌入式語(yǔ)音瀏覽器

  嵌入式語(yǔ)音瀏覽器支持HTTP或者WAP等傳輸協(xié)議及HTML、JavaScript、擴展XML、Voice XML等標記語(yǔ)言,可完成網(wǎng)頁(yè)瀏覽功能;適合在非PC的嵌入式信息設備中存在、運行,并完整實(shí)現通信傳輸協(xié)議、標記語(yǔ)言所規定的功能;根據嵌入式設備的多樣性需求進(jìn)行裁減和修改,并滿(mǎn)足信息設備使用者方便地獲取文字、圖像、聲音、視頻等信息;可廣泛應用到各種非PC設備或通信終端,如電視上的機頂盒、交互式數字電視、手持上網(wǎng)設備(移動(dòng)電話(huà)、掌上電腦、個(gè)人數字助理等)、互聯(lián)網(wǎng)電話(huà)、網(wǎng)絡(luò )終端、電子圖書(shū)閱讀器、公共信息查詢(xún)系統等。

  網(wǎng)絡(luò )的自適應

  在通信時(shí),智能通信終端應能自動(dòng)檢測所連接的網(wǎng)絡(luò )及傳輸方式(模擬通信網(wǎng)絡(luò )、數字通信網(wǎng)絡(luò )、ISDN、無(wú)線(xiàn)連接等),選擇最優(yōu)化的網(wǎng)絡(luò )及傳輸方式,自適應地連接到所選擇的網(wǎng)絡(luò )中去,以所選擇的網(wǎng)絡(luò )要求的處理方式處理數據,開(kāi)展工作。

  未來(lái)的智能通信終端不僅小巧便攜,使用簡(jiǎn)便,而且功能多,能滿(mǎn)足人們各種不同種類(lèi)信息傳輸的需求。無(wú)論何時(shí)何地,用戶(hù)都可隨機發(fā)送或接收信息,并能根據所處環(huán)境,自適應地選擇最優(yōu)傳輸網(wǎng)絡(luò )。未來(lái)的智能通信終端不再是只能進(jìn)行某一種通信的終端,而是可以進(jìn)行許多種類(lèi)的通信。

中國聯(lián)通網(wǎng)站



相關(guān)鏈接:
自動(dòng)語(yǔ)音系統:虛擬人物提供人性化呼叫業(yè)務(wù) 2007-01-23
劉慶峰 丈量夢(mèng)想到現實(shí)的距離 2006-06-05
語(yǔ)音技術(shù)“入侵”電話(huà)服務(wù) 顛覆傳統通信 2006-03-10
手機里的語(yǔ)音技術(shù),你了解嗎? 2006-02-24
基于鼎銘可編程交換機的大型分布式TTS系統 2006-02-07

分類(lèi)信息:     技術(shù)_多媒體通信終端_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 大足县| 拉萨市| 文山县| 时尚| 资中县| 湘潭市| 伊金霍洛旗| 天水市| 民勤县| 望谟县| 正宁县| 张掖市| 郓城县| 福州市| 平舆县| 黑河市| 庄河市| 张北县| 正镶白旗| 文水县| 石泉县| 淮滨县| 静安区| 恩施市| 平凉市| 桓仁| 平顶山市| 榆中县| 靖边县| 项城市| 西峡县| 安化县| 汨罗市| 芦山县| 旬阳县| 从江县| 栖霞市| 镇远县| 德州市| 聊城市| 赤城县| http://444 http://444 http://444 http://444 http://444 http://444