首頁>>>技術(shù)>>>語音應(yīng)用>>>語音合成(TTS)　　語音合成產(chǎn)品

語音技術(shù)的拓展與展望

清華大學(xué)計(jì)算機(jī)系人機(jī)交互與媒體集成研究所

蔡蓮紅吳志勇王瑋陶建華王志明

2001/06/01

研究現(xiàn)狀

1．語音識別獲得應(yīng)用

　　伴隨著語音識別技術(shù)的不斷發(fā)展，誕生了全球首套多語種交談式語音識別系統(tǒng)E-talk。這是全球惟一擁有中英混合語言的識別系統(tǒng)，能聽能講普通話、廣東話和英語，還可以高度適應(yīng)不同的口音，因而可以廣泛適用于不同文化背景的使用者，尤其是中國地區(qū)語言差別較大的廣大用戶。由于E-talk可以大大提高工作效率，降低運(yùn)營成本，并為用戶提供更便捷的增值服務(wù)，我們相信它必將成為電信、證券、金融、旅游等重視客戶服務(wù)的行業(yè)爭相引用的電子商務(wù)應(yīng)用系統(tǒng)，并成為電子商務(wù)發(fā)展的新趨勢，為整個信息產(chǎn)業(yè)帶來無限商機(jī)。

　　目前，飛利浦推出的語音識別自然會話平臺SpeechPearl和SpeechMania已成功地應(yīng)用于國內(nèi)呼叫中心，SpeechPearl中的每個識別引擎可提供高達(dá)20萬字的超大容量詞庫，尤其在具有大詞匯量、識別準(zhǔn)確性和靈活性等要求的各種電信增值服務(wù)中有著廣泛的應(yīng)用。

2．語音合成信息服務(wù)被用戶接受

　　語音合成技術(shù)把可視的文本信息轉(zhuǎn)化為可聽的聲音信息，其應(yīng)用的經(jīng)濟(jì)效益和社會效益前景良好。尤其對漢語語音合成技術(shù)的應(yīng)用而言，全球有十幾億人使用中文，其市場需求、應(yīng)用前景和經(jīng)濟(jì)效益等可見一斑。

　　語音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域智能電話查詢系統(tǒng)中展開應(yīng)用，并迅速推廣。在電話高度普及的今天，如果打電話就能查詢到所需信息，無疑將給人們的日常生活帶來極大方便。漢語語音合成技術(shù)應(yīng)用到聲訊服務(wù)領(lǐng)域內(nèi)，對現(xiàn)有的電話查詢系統(tǒng)將產(chǎn)生革命性的影響。

　　語音技術(shù)與互聯(lián)網(wǎng)已成功地結(jié)合。電話Internet網(wǎng)關(guān)是一種用于實(shí)現(xiàn)電話網(wǎng)和Internet網(wǎng)之間信息互訪的系統(tǒng)。簡而言之，就是讓電話用戶能夠輕松地通過電話訪問Internet網(wǎng)。系統(tǒng)的功能主要體現(xiàn)在兩個方面。一方面，讓用戶通過電話、手機(jī)或傳真機(jī)隨時隨地訪問Internet上的各種信息，如新聞、電子郵件等，大大擴(kuò)展了Internet信息的用戶群和地域范圍，同時大大降低了用戶參與到Internet的技術(shù)難度;另一方面，能夠?qū)㈦娫捊K端上信息流或控制指令發(fā)送到Internet上，例如用戶可以通過電話方便地發(fā)送電子郵件和類似的留言信息，不僅具有傳統(tǒng)的語音信箱功能，還可以將用戶語音以IP的方式廉價(jià)地發(fā)送到全球任何一個電腦或電話終端上，大大降低了信息交流的成本。利用語音合成技術(shù)的信息服務(wù)得到了用戶的廣泛接納，給用戶生活提供了極大的方便。

3．面向?qū)ο蟮恼Z音編碼

　　長期以來，在通信網(wǎng)的發(fā)展中，解決信息傳輸效率是一個關(guān)鍵問題，極其重要。目前科研人員已通過兩個途徑研究這一課題，其一是研究新的調(diào)制方法與技術(shù)，來提高信道傳輸信息的比特率，指標(biāo)是每赫茲帶寬所傳送的比特?cái)?shù);其二是壓縮信源編碼的比特率，例如標(biāo)準(zhǔn)PCM編碼，對3.4kHz頻帶信號需用64Kbps編碼比特率傳送，而壓縮這一比特率顯然可以提高信道傳送的話路數(shù)。這對任何頻率資源有限的傳輸環(huán)境來說，無疑是極為重要的，尤其是在無線通信技術(shù)決定今后通信發(fā)展命運(yùn)的今天更顯得重要。實(shí)際上，壓縮語音編碼比特率與話音存儲、語音識別及語音合成等技術(shù)都直接相關(guān)。

　　語音編碼技術(shù)的進(jìn)展對通信新業(yè)務(wù)的發(fā)展有極為明顯的影響，例如IP電話業(yè)務(wù)、實(shí)時長途翻譯業(yè)務(wù)、交換機(jī)的人工智能接口等。因此，國際電報(bào)電話咨詢委員會(CCITT)第15組提出了許多急需制訂的話音編碼標(biāo)準(zhǔn)建議，以推動通信網(wǎng)的發(fā)展。由于VLSI的發(fā)展，實(shí)現(xiàn)這一技術(shù)的代價(jià)已從在昂貴的信道中采用，發(fā)展到一般信道中都可接受的水平，因此，編碼技術(shù)日益受到重視。當(dāng)前，數(shù)字移動通信和個人通信(PCN)是深受人們重視的通信手段，其重要問題之一是壓縮語音編碼速率，形成面向?qū)ο蟮恼Z音編碼技術(shù)。

　　數(shù)字語音編碼技術(shù)從1938年提出PCM開始，其編碼方法已有了很大的發(fā)展，如1968年提出的線性預(yù)測編碼技術(shù)(LPC)、20世紀(jì)70年代末出現(xiàn)的隱馬科夫技術(shù)(HMM)以及矢量量化(VQ)等。

　　當(dāng)前，語音編碼技術(shù)不僅受到研究部門、應(yīng)用部門的重視，而且推動了標(biāo)準(zhǔn)的制訂，因?yàn)闃?biāo)準(zhǔn)是工業(yè)生產(chǎn)的一個重要前提，對通信體制的確定有很大影響。目前，關(guān)于低速率語音編碼的算法發(fā)展較快，它可應(yīng)用的范圍也相當(dāng)廣泛，人們將從中獲得極大的效益。這些對推動各種通信標(biāo)準(zhǔn)及網(wǎng)絡(luò)的建設(shè)都十分重要。

4．口語機(jī)器翻譯受到重視

　　口語翻譯的一個重要目的就是幫助聾啞人與正常人交流，近來越來越受到人們的重視。首先，聾啞人要戴上一副特制的手套，計(jì)算機(jī)根據(jù)他打出的手語進(jìn)行識別，然后，通過語音合成系統(tǒng)就可以把圖像信息翻譯成語言信息。同時，系統(tǒng)還能夠完成將正常人的語言翻譯成聾啞人的手語，只要將正常人說的話鍵入計(jì)算機(jī)，經(jīng)程序分析處理之后，翻譯成有表情、有動作的三維圖像，從而最終達(dá)到聾啞人與正常人之間通過翻譯機(jī)進(jìn)行交流的目的�？谡Z翻譯的研究在其他很多方面都有重要價(jià)值，如用手勢控制計(jì)算機(jī)，甚至用手勢導(dǎo)航等。

語音合成的最新進(jìn)展

1．神經(jīng)網(wǎng)絡(luò)用于訓(xùn)練韻律模型

　　由于人工神經(jīng)網(wǎng)絡(luò)具備良好的自學(xué)習(xí)和自適應(yīng)能力，將其應(yīng)用于語音合成系統(tǒng)中的韻律模型研究具有很重要的意義。將神經(jīng)網(wǎng)絡(luò)模型與已有的文語轉(zhuǎn)換系統(tǒng)有機(jī)結(jié)合，可以改變傳統(tǒng)的文語轉(zhuǎn)換系統(tǒng)的韻律模型，具有更強(qiáng)的適應(yīng)性和可訓(xùn)練性，使合成語音的自然度得到顯著提高，增加了系統(tǒng)的靈活性和風(fēng)格的多樣性。

2．?dāng)?shù)據(jù)挖掘用于發(fā)現(xiàn)語音知識

　　數(shù)據(jù)挖掘作為一種在大量數(shù)據(jù)庫中發(fā)現(xiàn)隱藏新知識的計(jì)算技術(shù)方法，通過語音定性模型的建立，將數(shù)據(jù)分析和挖掘結(jié)果轉(zhuǎn)化為邏輯規(guī)則或用可視化的形式進(jìn)行表達(dá)。因此，將數(shù)據(jù)挖掘和人機(jī)交互接口緊密地聯(lián)系在一起，將對計(jì)算機(jī)語音信號處理的研究工作產(chǎn)生巨大的推動力，為語音信號處理提供了一條嶄新的研究途徑。

3．文本-可視語音轉(zhuǎn)換系統(tǒng)研制成功

　　文本-可視語音轉(zhuǎn)換技術(shù)的出現(xiàn)是多媒體技術(shù)迅速發(fā)展的產(chǎn)物，也迎合了社會發(fā)展的需求。它給人們的生活增添了新的色彩，使計(jì)算機(jī)更加人性化，人們與計(jì)算機(jī)的交流變得更為簡單。相信在不久的將來，它會在眾多的技術(shù)、商業(yè)和娛樂領(lǐng)域得到廣泛的應(yīng)用，并逐步進(jìn)入我們每個人的生活。

拓展語音計(jì)算

1．韻律研究與感知相結(jié)合

　　韻律是語音信號的自身屬性，它反映了一個人說話時的語調(diào)高低和時間長短信息，同時反映了說話人說話時的語境信息。韻律模塊也是語音合成系統(tǒng)中的重要組成模塊，韻律參數(shù)研究的成功與否直接影響合成系統(tǒng)的輸出。感知信息主要體現(xiàn)說話人對一句話中某些部分的強(qiáng)調(diào)和語句重音信息，語句重音也會對系統(tǒng)的合成輸出產(chǎn)生很大的影響，因此，要想得到較好的語音合成效果，需要對韻律和感知進(jìn)行深入的研究。

2．從語法、語義層面探索語音計(jì)算的理論和方法

　　語音計(jì)算中包含對語言語法、語義的理解，語音合成系統(tǒng)的輸出不僅僅取決于語音數(shù)據(jù)音質(zhì)的好壞，同時在很大程度上受到所處理文本的語法及語義現(xiàn)象的制約，如果沒有正確的語法描述、合理地體現(xiàn)語義信息，就不可能產(chǎn)生很好的合成效果。而獲得這種相互關(guān)系只有通過對大量的語言現(xiàn)象進(jìn)行分析總結(jié)，形成規(guī)則描述。為了更加客觀地進(jìn)行描述，可以借助于人工智能領(lǐng)域里的數(shù)據(jù)挖掘方法，因此，語音計(jì)算的關(guān)鍵技術(shù)是挖掘語法、語義和語音之間的相互關(guān)系，采用規(guī)則描述，將這種關(guān)系結(jié)合到實(shí)際合成語音系統(tǒng)中，提高語音合成輸出的自然度。

3．建設(shè)海量語音數(shù)據(jù)資源

　　語音計(jì)算的成功與否在很大程度上取決于語音資源的積累。目前，在比較先進(jìn)的語音處理方法中，無一例外都提到了采用基于數(shù)據(jù)的驅(qū)動方式，然而這種方式首先就需要大量的語料數(shù)據(jù)，沒有大語料，數(shù)據(jù)的驅(qū)動就無從談起。因此，為了盡可能地覆蓋各種語言現(xiàn)象，需要長期積累各種語音資源，同時對于語音信號的處理也需要大量的語音處理軟件。這些都是日積月累的過程。

語音技術(shù)的研究方向

1．連續(xù)自然語音的識別與理解

　　自然語音識別與理解研究的是計(jì)算機(jī)如何理解人類的語言，其目的就是讓計(jì)算機(jī)能夠理解人說的話，當(dāng)我們使用計(jì)算機(jī)時，只要告訴它應(yīng)該做什么，它就能按照所理解的去執(zhí)行。雖然現(xiàn)在自然語音識別與理解的理論研究得到了進(jìn)一步完善，同時，計(jì)算機(jī)的功能、容量和速度都有了很大的提高，但研究仍局限在對孤立音節(jié)的識別與理解上。人類流暢的自然發(fā)音不是孤立音節(jié)發(fā)音的簡單組合，它是在一定時間范圍內(nèi)輸出的一種連續(xù)語流，因此，需要對連續(xù)語音進(jìn)行處理。連續(xù)語音識別與理解技術(shù)中需要解決的難點(diǎn)很多，對它的研究是語音技術(shù)今后的目標(biāo)之一。

2．高自然度、具有表現(xiàn)力的合成語音

　　提高合成語音的自然度仍然是高性能文語轉(zhuǎn)換的當(dāng)務(wù)之急。就漢語語音合成來說，目前在單字和詞組級上，合成語音的可懂度和自然度已基本解決，但是對于句子乃至篇章級，其自然度問題就比較大。未來的文語轉(zhuǎn)換系統(tǒng)的發(fā)展趨勢是采用基于語境相關(guān)的合成思想進(jìn)行設(shè)計(jì)，能夠?qū)l(fā)音人的原始發(fā)音特征最大限度地保留下來，輔助以先進(jìn)的層次化語言韻律模型，通過分散統(tǒng)計(jì)的模型方法來涵蓋語義語音之間的內(nèi)在聯(lián)系，使系統(tǒng)能夠輸出具有高自然度和表現(xiàn)力的合成語音。但是，在目前的合成系統(tǒng)中，普遍存在合成輸出語音的機(jī)器味比較濃、語境的知識層次模型研究不完善等問題。因此，獲得高自然度、具有表現(xiàn)力的合成語音也是今后語音技術(shù)的研究目標(biāo)之一。

3．語音技術(shù)與多媒體技術(shù)的結(jié)合

　　伴隨著現(xiàn)代語音技術(shù)的不斷發(fā)展，人類對語音信號的需要已經(jīng)不僅僅停留在可懂性和正確性上，語音合成技術(shù)的研究方向已是合成語音的美感并同時輸出輔助的視頻特征，實(shí)現(xiàn)虛擬主持人的效果，通過將視覺效果包括人的頭部建模、唇形同步技術(shù)和表情因素等視頻信息的加入，可以更好地體現(xiàn)語音合成系統(tǒng)的表現(xiàn)力和感染力。因此，我們完全有理由相信，語音技術(shù)和多媒體技術(shù)的有機(jī)結(jié)合將使合成系統(tǒng)展現(xiàn)出廣闊的應(yīng)用前景。

4．語音技術(shù)與網(wǎng)絡(luò)技術(shù)的結(jié)合

　　目前，語音技術(shù)已逐漸應(yīng)用于電信的聲訊信息服務(wù)領(lǐng)域和互聯(lián)網(wǎng)消息收發(fā)方面。隨著電話網(wǎng)與互聯(lián)網(wǎng)的融合、網(wǎng)絡(luò)信息項(xiàng)目的增多和時效性要求逐步提高，建立適合于股票交易、航班動態(tài)查詢、電話自動報(bào)稅等業(yè)務(wù)的語音系統(tǒng)成為可能，電話用戶可以通過傳統(tǒng)的語音、傳真獲取互聯(lián)網(wǎng)上無窮無盡的信息。這些業(yè)務(wù)將徹底解決傳統(tǒng)數(shù)字錄音回放技術(shù)所無法解決的海量信息庫和動態(tài)變化信息的實(shí)時生成與存儲的難題，因此，將語音技術(shù)與網(wǎng)絡(luò)進(jìn)行完美的結(jié)合具有強(qiáng)大的生命力。

5．多語種

　　語言是人們交流的工具，不同民族有自己不同的語言，不同語言之間的交流在今天開放的信息社會和網(wǎng)絡(luò)時代顯得十分重要，因此，多語種的文語合成有著獨(dú)特的應(yīng)用價(jià)值。例如在自動電話翻譯、有聲電子郵件等應(yīng)用中都提出了多語種語音合成的需求，即使是對漢語合成也有多方言文語轉(zhuǎn)換問題。理想的多語種合成系統(tǒng)最好是各種語言共用一種合成算法或語音合成器，但現(xiàn)有的語音合成系統(tǒng)大多是針對某一種語言或若干種語言開發(fā)出來的，所采用的算法及規(guī)則都是與某種語言密切相關(guān)的，因此很難推廣到其他語種。如漢語和西方語言之間存在著很大的差異，而目前國內(nèi)的系統(tǒng)都是做漢語文語轉(zhuǎn)換的，其韻律控制規(guī)則完全不適合于英語，而且它們主要是合成漢語普通話的，即使推廣到廣東話和上海話都有相當(dāng)?shù)碾y度�？梢娨嬲鉀Q多語種的文語合成，從文本處理到語音合成都必須有新的思路，因此，研制多語種語音合成轉(zhuǎn)換系統(tǒng)具有重要的理論和現(xiàn)實(shí)意義。

《計(jì)算機(jī)世界》 2001/06/01

語音門戶:讓網(wǎng)絡(luò)接入更便捷 2001-05-11

VoiceXML簡介 2001-04-19

語音網(wǎng)站不是信息臺 2001-02-16

網(wǎng)絡(luò)與電話技術(shù)的完美結(jié)合 -- VoiceXml 2001-02-07

区。| 龙江县| 乌兰县| 涞水县| 水城县| 金塔县| 崇仁县| 龙口市| 黑水县| 台中县| 收藏| 玉屏| 吴堡县| 收藏| 光泽县| 武强县| 白山市| 科尔| 浏阳市| 台安县| 安岳县| 十堰市| 保亭| 明星| 库伦旗| 冷水江市| 满城县| 玉树县| 聂拉木县| 德惠市| 横山县| 蓝山县| 无锡市| 安平县| 泾源县| 娱乐| 噶尔县| 阿克苏市| 虞城县| 陇川县| 项城市|