首頁(yè)>>>技術(shù)>>>語(yǔ)音應用>>>語(yǔ)音合成(TTS)  語(yǔ)音合成產(chǎn)品

 

語(yǔ)音技術(shù)的拓展與展望

清華大學(xué)計算機系人機交互與媒體集成研究所

蔡蓮紅 吳志勇 王瑋 陶建華 王志明

2001/06/01

研究現狀

1.語(yǔ)音識別獲得應用

  伴隨著(zhù)語(yǔ)音識別技術(shù)的不斷發(fā)展,誕生了全球首套多語(yǔ)種交談式語(yǔ)音識別系統E-talk。這是全球惟一擁有中英混合語(yǔ)言的識別系統,能聽(tīng)能講普通話(huà)、廣東話(huà)和英語(yǔ),還可以高度適應不同的口音,因而可以廣泛適用于不同文化背景的使用者,尤其是中國地區語(yǔ)言差別較大的廣大用戶(hù)。由于E-talk可以大大提高工作效率,降低運營(yíng)成本,并為用戶(hù)提供更便捷的增值服務(wù),我們相信它必將成為電信、證券、金融、旅游等重視客戶(hù)服務(wù)的行業(yè)爭相引用的電子商務(wù)應用系統,并成為電子商務(wù)發(fā)展的新趨勢,為整個(gè)信息產(chǎn)業(yè)帶來(lái)無(wú)限商機。

  目前,飛利浦推出的語(yǔ)音識別自然會(huì )話(huà)平臺SpeechPearlSpeechMania已成功地應用于國內呼叫中心,SpeechPearl中的每個(gè)識別引擎可提供高達20萬(wàn)字的超大容量詞庫,尤其在具有大詞匯量、識別準確性和靈活性等要求的各種電信增值服務(wù)中有著(zhù)廣泛的應用。

2.語(yǔ)音合成信息服務(wù)被用戶(hù)接受

  語(yǔ)音合成技術(shù)把可視的文本信息轉化為可聽(tīng)的聲音信息,其應用的經(jīng)濟效益和社會(huì )效益前景良好。尤其對漢語(yǔ)語(yǔ)音合成技術(shù)的應用而言,全球有十幾億人使用中文,其市場(chǎng)需求、應用前景和經(jīng)濟效益等可見(jiàn)一斑。

  語(yǔ)音技術(shù)已逐漸在電信聲訊信息服務(wù)領(lǐng)域智能電話(huà)查詢(xún)系統中展開(kāi)應用,并迅速推廣。在電話(huà)高度普及的今天,如果打電話(huà)就能查詢(xún)到所需信息,無(wú)疑將給人們的日常生活帶來(lái)極大方便。漢語(yǔ)語(yǔ)音合成技術(shù)應用到聲訊服務(wù)領(lǐng)域內,對現有的電話(huà)查詢(xún)系統將產(chǎn)生革命性的影響。

  語(yǔ)音技術(shù)與互聯(lián)網(wǎng)已成功地結合。電話(huà)Internet網(wǎng)關(guān)是一種用于實(shí)現電話(huà)網(wǎng)和Internet網(wǎng)之間信息互訪(fǎng)的系統。簡(jiǎn)而言之,就是讓電話(huà)用戶(hù)能夠輕松地通過(guò)電話(huà)訪(fǎng)問(wèn)Internet網(wǎng)。系統的功能主要體現在兩個(gè)方面。一方面,讓用戶(hù)通過(guò)電話(huà)、手機或傳真機隨時(shí)隨地訪(fǎng)問(wèn)Internet上的各種信息,如新聞、電子郵件等,大大擴展了Internet信息的用戶(hù)群和地域范圍,同時(shí)大大降低了用戶(hù)參與到Internet的技術(shù)難度;另一方面,能夠將電話(huà)終端上信息流或控制指令發(fā)送到Internet上,例如用戶(hù)可以通過(guò)電話(huà)方便地發(fā)送電子郵件和類(lèi)似的留言信息,不僅具有傳統的語(yǔ)音信箱功能,還可以將用戶(hù)語(yǔ)音以IP的方式廉價(jià)地發(fā)送到全球任何一個(gè)電腦或電話(huà)終端上,大大降低了信息交流的成本。利用語(yǔ)音合成技術(shù)的信息服務(wù)得到了用戶(hù)的廣泛接納,給用戶(hù)生活提供了極大的方便。

3.面向對象的語(yǔ)音編碼

  長(cháng)期以來(lái),在通信網(wǎng)的發(fā)展中,解決信息傳輸效率是一個(gè)關(guān)鍵問(wèn)題,極其重要。目前科研人員已通過(guò)兩個(gè)途徑研究這一課題,其一是研究新的調制方法與技術(shù),來(lái)提高信道傳輸信息的比特率,指標是每赫茲帶寬所傳送的比特數;其二是壓縮信源編碼的比特率,例如標準PCM編碼,對3.4kHz頻帶信號需用64Kbps編碼比特率傳送,而壓縮這一比特率顯然可以提高信道傳送的話(huà)路數。這對任何頻率資源有限的傳輸環(huán)境來(lái)說(shuō),無(wú)疑是極為重要的,尤其是在無(wú)線(xiàn)通信技術(shù)決定今后通信發(fā)展命運的今天更顯得重要。實(shí)際上,壓縮語(yǔ)音編碼比特率與話(huà)音存儲、語(yǔ)音識別及語(yǔ)音合成等技術(shù)都直接相關(guān)。

  語(yǔ)音編碼技術(shù)的進(jìn)展對通信新業(yè)務(wù)的發(fā)展有極為明顯的影響,例如IP電話(huà)業(yè)務(wù)、實(shí)時(shí)長(cháng)途翻譯業(yè)務(wù)、交換機的人工智能接口等。因此,國際電報電話(huà)咨詢(xún)委員會(huì )(CCITT)15組提出了許多急需制訂的話(huà)音編碼標準建議,以推動(dòng)通信網(wǎng)的發(fā)展。由于VLSI的發(fā)展,實(shí)現這一技術(shù)的代價(jià)已從在昂貴的信道中采用,發(fā)展到一般信道中都可接受的水平,因此,編碼技術(shù)日益受到重視。當前,數字移動(dòng)通信和個(gè)人通信(PCN)是深受人們重視的通信手段,其重要問(wèn)題之一是壓縮語(yǔ)音編碼速率,形成面向對象的語(yǔ)音編碼技術(shù)。

  數字語(yǔ)音編碼技術(shù)從1938年提出PCM開(kāi)始,其編碼方法已有了很大的發(fā)展,如1968年提出的線(xiàn)性預測編碼技術(shù)(LPC)20世紀70年代末出現的隱馬科夫技術(shù)(HMM)以及矢量量化(VQ)等。

  當前,語(yǔ)音編碼技術(shù)不僅受到研究部門(mén)、應用部門(mén)的重視,而且推動(dòng)了標準的制訂,因為標準是工業(yè)生產(chǎn)的一個(gè)重要前提,對通信體制的確定有很大影響。目前,關(guān)于低速率語(yǔ)音編碼的算法發(fā)展較快,它可應用的范圍也相當廣泛,人們將從中獲得極大的效益。這些對推動(dòng)各種通信標準及網(wǎng)絡(luò )的建設都十分重要。

4.口語(yǔ)機器翻譯受到重視

  口語(yǔ)翻譯的一個(gè)重要目的就是幫助聾啞人與正常人交流,近來(lái)越來(lái)越受到人們的重視。首先,聾啞人要戴上一副特制的手套,計算機根據他打出的手語(yǔ)進(jìn)行識別,然后,通過(guò)語(yǔ)音合成系統就可以把圖像信息翻譯成語(yǔ)言信息。同時(shí),系統還能夠完成將正常人的語(yǔ)言翻譯成聾啞人的手語(yǔ),只要將正常人說(shuō)的話(huà)鍵入計算機,經(jīng)程序分析處理之后,翻譯成有表情、有動(dòng)作的三維圖像,從而最終達到聾啞人與正常人之間通過(guò)翻譯機進(jìn)行交流的目的。口語(yǔ)翻譯的研究在其他很多方面都有重要價(jià)值,如用手勢控制計算機,甚至用手勢導航等。

語(yǔ)音合成的最新進(jìn)展

1.神經(jīng)網(wǎng)絡(luò )用于訓練韻律模型

  由于人工神經(jīng)網(wǎng)絡(luò )具備良好的自學(xué)習和自適應能力,將其應用于語(yǔ)音合成系統中的韻律模型研究具有很重要的意義。將神經(jīng)網(wǎng)絡(luò )模型與已有的文語(yǔ)轉換系統有機結合,可以改變傳統的文語(yǔ)轉換系統的韻律模型,具有更強的適應性和可訓練性,使合成語(yǔ)音的自然度得到顯著(zhù)提高,增加了系統的靈活性和風(fēng)格的多樣性。

2.數據挖掘用于發(fā)現語(yǔ)音知識

  數據挖掘作為一種在大量數據庫中發(fā)現隱藏新知識的計算技術(shù)方法,通過(guò)語(yǔ)音定性模型的建立,將數據分析和挖掘結果轉化為邏輯規則或用可視化的形式進(jìn)行表達。因此,將數據挖掘和人機交互接口緊密地聯(lián)系在一起,將對計算機語(yǔ)音信號處理的研究工作產(chǎn)生巨大的推動(dòng)力,為語(yǔ)音信號處理提供了一條嶄新的研究途徑。

3.文本-可視語(yǔ)音轉換系統研制成功

  文本-可視語(yǔ)音轉換技術(shù)的出現是多媒體技術(shù)迅速發(fā)展的產(chǎn)物,也迎合了社會(huì )發(fā)展的需求。它給人們的生活增添了新的色彩,使計算機更加人性化,人們與計算機的交流變得更為簡(jiǎn)單。相信在不久的將來(lái),它會(huì )在眾多的技術(shù)、商業(yè)和娛樂(lè )領(lǐng)域得到廣泛的應用,并逐步進(jìn)入我們每個(gè)人的生活。

拓展語(yǔ)音計算

1.韻律研究與感知相結合

  韻律是語(yǔ)音信號的自身屬性,它反映了一個(gè)人說(shuō)話(huà)時(shí)的語(yǔ)調高低和時(shí)間長(cháng)短信息,同時(shí)反映了說(shuō)話(huà)人說(shuō)話(huà)時(shí)的語(yǔ)境信息。韻律模塊也是語(yǔ)音合成系統中的重要組成模塊,韻律參數研究的成功與否直接影響合成系統的輸出。感知信息主要體現說(shuō)話(huà)人對一句話(huà)中某些部分的強調和語(yǔ)句重音信息,語(yǔ)句重音也會(huì )對系統的合成輸出產(chǎn)生很大的影響,因此,要想得到較好的語(yǔ)音合成效果,需要對韻律和感知進(jìn)行深入的研究。

2.從語(yǔ)法、語(yǔ)義層面探索語(yǔ)音計算的理論和方法

  語(yǔ)音計算中包含對語(yǔ)言語(yǔ)法、語(yǔ)義的理解,語(yǔ)音合成系統的輸出不僅僅取決于語(yǔ)音數據音質(zhì)的好壞,同時(shí)在很大程度上受到所處理文本的語(yǔ)法及語(yǔ)義現象的制約,如果沒(méi)有正確的語(yǔ)法描述、合理地體現語(yǔ)義信息,就不可能產(chǎn)生很好的合成效果。而獲得這種相互關(guān)系只有通過(guò)對大量的語(yǔ)言現象進(jìn)行分析總結,形成規則描述。為了更加客觀(guān)地進(jìn)行描述,可以借助于人工智能領(lǐng)域里的數據挖掘方法,因此,語(yǔ)音計算的關(guān)鍵技術(shù)是挖掘語(yǔ)法、語(yǔ)義和語(yǔ)音之間的相互關(guān)系,采用規則描述,將這種關(guān)系結合到實(shí)際合成語(yǔ)音系統中,提高語(yǔ)音合成輸出的自然度。

3.建設海量語(yǔ)音數據資源

  語(yǔ)音計算的成功與否在很大程度上取決于語(yǔ)音資源的積累。目前,在比較先進(jìn)的語(yǔ)音處理方法中,無(wú)一例外都提到了采用基于數據的驅動(dòng)方式,然而這種方式首先就需要大量的語(yǔ)料數據,沒(méi)有大語(yǔ)料,數據的驅動(dòng)就無(wú)從談起。因此,為了盡可能地覆蓋各種語(yǔ)言現象,需要長(cháng)期積累各種語(yǔ)音資源,同時(shí)對于語(yǔ)音信號的處理也需要大量的語(yǔ)音處理軟件。這些都是日積月累的過(guò)程。

語(yǔ)音技術(shù)的研究方向

1.連續自然語(yǔ)音的識別與理解

  自然語(yǔ)音識別與理解研究的是計算機如何理解人類(lèi)的語(yǔ)言,其目的就是讓計算機能夠理解人說(shuō)的話(huà),當我們使用計算機時(shí),只要告訴它應該做什么,它就能按照所理解的去執行。雖然現在自然語(yǔ)音識別與理解的理論研究得到了進(jìn)一步完善,同時(shí),計算機的功能、容量和速度都有了很大的提高,但研究仍局限在對孤立音節的識別與理解上。人類(lèi)流暢的自然發(fā)音不是孤立音節發(fā)音的簡(jiǎn)單組合,它是在一定時(shí)間范圍內輸出的一種連續語(yǔ)流,因此,需要對連續語(yǔ)音進(jìn)行處理。連續語(yǔ)音識別與理解技術(shù)中需要解決的難點(diǎn)很多,對它的研究是語(yǔ)音技術(shù)今后的目標之一。

2.高自然度、具有表現力的合成語(yǔ)音

  提高合成語(yǔ)音的自然度仍然是高性能文語(yǔ)轉換的當務(wù)之急。就漢語(yǔ)語(yǔ)音合成來(lái)說(shuō),目前在單字和詞組級上,合成語(yǔ)音的可懂度和自然度已基本解決,但是對于句子乃至篇章級,其自然度問(wèn)題就比較大。未來(lái)的文語(yǔ)轉換系統的發(fā)展趨勢是采用基于語(yǔ)境相關(guān)的合成思想進(jìn)行設計,能夠將發(fā)音人的原始發(fā)音特征最大限度地保留下來(lái),輔助以先進(jìn)的層次化語(yǔ)言韻律模型,通過(guò)分散統計的模型方法來(lái)涵蓋語(yǔ)義語(yǔ)音之間的內在聯(lián)系,使系統能夠輸出具有高自然度和表現力的合成語(yǔ)音。但是,在目前的合成系統中,普遍存在合成輸出語(yǔ)音的機器味比較濃、語(yǔ)境的知識層次模型研究不完善等問(wèn)題。因此,獲得高自然度、具有表現力的合成語(yǔ)音也是今后語(yǔ)音技術(shù)的研究目標之一。

3.語(yǔ)音技術(shù)與多媒體技術(shù)的結合

  伴隨著(zhù)現代語(yǔ)音技術(shù)的不斷發(fā)展,人類(lèi)對語(yǔ)音信號的需要已經(jīng)不僅僅停留在可懂性和正確性上,語(yǔ)音合成技術(shù)的研究方向已是合成語(yǔ)音的美感并同時(shí)輸出輔助的視頻特征,實(shí)現虛擬主持人的效果,通過(guò)將視覺(jué)效果包括人的頭部建模、唇形同步技術(shù)和表情因素等視頻信息的加入,可以更好地體現語(yǔ)音合成系統的表現力和感染力。因此,我們完全有理由相信,語(yǔ)音技術(shù)和多媒體技術(shù)的有機結合將使合成系統展現出廣闊的應用前景。

4.語(yǔ)音技術(shù)與網(wǎng)絡(luò )技術(shù)的結合

  目前,語(yǔ)音技術(shù)已逐漸應用于電信的聲訊信息服務(wù)領(lǐng)域和互聯(lián)網(wǎng)消息收發(fā)方面。隨著(zhù)電話(huà)網(wǎng)與互聯(lián)網(wǎng)的融合、網(wǎng)絡(luò )信息項目的增多和時(shí)效性要求逐步提高,建立適合于股票交易、航班動(dòng)態(tài)查詢(xún)、電話(huà)自動(dòng)報稅等業(yè)務(wù)的語(yǔ)音系統成為可能,電話(huà)用戶(hù)可以通過(guò)傳統的語(yǔ)音、傳真獲取互聯(lián)網(wǎng)上無(wú)窮無(wú)盡的信息。這些業(yè)務(wù)將徹底解決傳統數字錄音回放技術(shù)所無(wú)法解決的海量信息庫和動(dòng)態(tài)變化信息的實(shí)時(shí)生成與存儲的難題,因此,將語(yǔ)音技術(shù)與網(wǎng)絡(luò )進(jìn)行完美的結合具有強大的生命力。

5.多語(yǔ)種

  語(yǔ)言是人們交流的工具,不同民族有自己不同的語(yǔ)言,不同語(yǔ)言之間的交流在今天開(kāi)放的信息社會(huì )和網(wǎng)絡(luò )時(shí)代顯得十分重要,因此,多語(yǔ)種的文語(yǔ)合成有著(zhù)獨特的應用價(jià)值。例如在自動(dòng)電話(huà)翻譯、有聲電子郵件等應用中都提出了多語(yǔ)種語(yǔ)音合成的需求,即使是對漢語(yǔ)合成也有多方言文語(yǔ)轉換問(wèn)題。理想的多語(yǔ)種合成系統最好是各種語(yǔ)言共用一種合成算法或語(yǔ)音合成器,但現有的語(yǔ)音合成系統大多是針對某一種語(yǔ)言或若干種語(yǔ)言開(kāi)發(fā)出來(lái)的,所采用的算法及規則都是與某種語(yǔ)言密切相關(guān)的,因此很難推廣到其他語(yǔ)種。如漢語(yǔ)和西方語(yǔ)言之間存在著(zhù)很大的差異,而目前國內的系統都是做漢語(yǔ)文語(yǔ)轉換的,其韻律控制規則完全不適合于英語(yǔ),而且它們主要是合成漢語(yǔ)普通話(huà)的,即使推廣到廣東話(huà)和上海話(huà)都有相當的難度。可見(jiàn)要真正解決多語(yǔ)種的文語(yǔ)合成,從文本處理到語(yǔ)音合成都必須有新的思路,因此,研制多語(yǔ)種語(yǔ)音合成轉換系統具有重要的理論和現實(shí)意義。

《計算機世界》 2001/06/01



相關(guān)鏈接:
神經(jīng)網(wǎng)絡(luò )與漢語(yǔ)TTS韻律模型 2001-06-01
語(yǔ)音門(mén)戶(hù):讓網(wǎng)絡(luò )接入更便捷 2001-05-11
VoiceXML簡(jiǎn)介 2001-04-19
語(yǔ)音網(wǎng)站不是信息臺 2001-02-16
網(wǎng)絡(luò )與電話(huà)技術(shù)的完美結合 -- VoiceXml 2001-02-07
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 曲水县| 应城市| 阳谷县| 来宾市| 瑞昌市| 神木县| 永顺县| 沙坪坝区| 大渡口区| 舟山市| 郁南县| 凤山市| 通辽市| 图片| 襄汾县| 金湖县| 应城市| 吕梁市| 安徽省| 云浮市| 安多县| 河曲县| 太和县| 沁阳市| 北流市| 新和县| 石景山区| 阿荣旗| 吐鲁番市| 门源| 收藏| 武穴市| 彭水| 林周县| 富裕县| 博乐市| 合川市| 邯郸县| 祁阳县| 乡宁县| 漳平市| http://444 http://444 http://444 http://444 http://444 http://444