語(yǔ)音合成技術(shù)及國內外發(fā)展現狀
王仁華 中國科學(xué)技術(shù)大學(xué)
一 語(yǔ)音合成技術(shù)簡(jiǎn)介
-----語(yǔ)音識別和語(yǔ)音合成技術(shù)是實(shí)現人機語(yǔ)音通信,建立一個(gè)有聽(tīng)和講能力的口語(yǔ)系統所必需的兩項關(guān)鍵技術(shù)。使電腦具有類(lèi)似于人一樣的說(shuō)話(huà)和聽(tīng)懂人說(shuō)話(huà)的能力,是90年代信息產(chǎn)業(yè)的重要競爭市場(chǎng)。和語(yǔ)言識別相比,語(yǔ)言合成的技術(shù)相對說(shuō)來(lái)要成熟一些,是該領(lǐng)域中近期最有希望產(chǎn)生突破并形成產(chǎn)業(yè)化的一項技術(shù)。
-----語(yǔ)言合成或者讓計算機說(shuō)話(huà)包含著(zhù)二個(gè)方面的可能性:一是機器能再生一個(gè)預先存入的語(yǔ)音信號,就象普通的錄音機一樣,不同之處只是采用了數字存儲技術(shù)。簡(jiǎn)單地將預先存入的單音或詞組拼接起來(lái)也能作到“機器開(kāi)口”, 但是“一字一蹦”,機器味十足,人們很難接受。然而如果預先存入足夠的語(yǔ)音單元,在合成時(shí)采用恰當的技術(shù)手段挑選出所需的語(yǔ)音單元拼接起來(lái),也有可能生成高自然度的語(yǔ)句,這就是波形拼接的語(yǔ)音合成方法。為了節省存儲容量,在存入機器之前還可以對語(yǔ)音信號先進(jìn)行數據壓縮。另一種可能是采用數字信號處理的方法,將人類(lèi)發(fā)聲過(guò)程看作是一個(gè)模擬聲門(mén)狀態(tài)的源,去激勵一個(gè)表征聲道諧振特性的時(shí)變數字濾波器,這個(gè)源可能是周期脈沖序列,它代表濁音情況下的聲帶振動(dòng),或者是隨機噪聲序列,代表不出聲的清音. 調整濾波器的參數等效于改變口腔及聲道形狀,達到控制發(fā)不同音的目的,而調整激勵源脈沖序列的周期或強度,將改變合成語(yǔ)音的音調、重音等. 因此,只要正確控制激勵源和濾波器參數(一般每隔10~30ms送一組),這個(gè)模型就能靈活地合成出各種語(yǔ)句來(lái),因此又稱(chēng)作為參數合成的方法。根據時(shí)變?yōu)V波器的結構形式不同,又有LPC合成和共振峰合成器等之分。
-----按照人類(lèi)言語(yǔ)功能的不同層次,語(yǔ)言合成也可分成三個(gè)層次,它們是:(1)從文字到語(yǔ)音的合成(Text-To-Speech);(2)從概念到語(yǔ)音的合成(Concept-To-Speech);(3)從意向到語(yǔ)音的合成(Intention-To-Speech)。這三個(gè)層次反映了人類(lèi)大腦中形成說(shuō)話(huà)內容的不同過(guò)程,涉及人類(lèi)大腦的高級神經(jīng)活動(dòng)。不難想象,即使是按規則的文字到語(yǔ)音合成(文語(yǔ)合成)也已經(jīng)是相當困難的任務(wù)。為了合成出高質(zhì)量的語(yǔ)言,除了依賴(lài)于各種規則,包括語(yǔ)義學(xué)規則、詞匯規則、語(yǔ)音學(xué)規則外,還必須對文字的內容有很好的理解,這將涉及自然語(yǔ)言理解的問(wèn)題。從這一點(diǎn)講,文語(yǔ)轉換系統實(shí)際上也可看作一個(gè)人工智能系統。圖1顯示了一個(gè)完整的文語(yǔ)轉換系統示意圖。文語(yǔ)轉換過(guò)程是先將文字序列轉換成音韻序列,再由語(yǔ)音合成器生成語(yǔ)音波形。其中第一步涉及語(yǔ)言學(xué)處理,例如分詞、字音轉換等,以及一整套有效的韻律控制規則;第二步需要先進(jìn)的語(yǔ)音合成技術(shù),能按要求實(shí)時(shí)合成出高質(zhì)量的語(yǔ)音流。因此一般說(shuō)來(lái),文語(yǔ)合成系統都需要一套復雜的文字序列到音素序列的轉換程序,也就是說(shuō),文語(yǔ)轉換系統不僅要應用數字信號處理技術(shù),而且必須有大量的語(yǔ)言學(xué)知識的支持。當然其中語(yǔ)音合成終究還是最基本的部分,它相當于“人工嘴巴”,任何語(yǔ)言合成系統包括文語(yǔ)轉換系統,都離不開(kāi)語(yǔ)音合成器。
![]()
圖 1 文語(yǔ)轉換系統示意圖
二 國內外語(yǔ)音合成技術(shù)發(fā)展現狀
-----綜觀(guān)語(yǔ)言合成技術(shù)的研究已有二百多年的歷史,但是真正有實(shí)用意義的近代語(yǔ)音合成技術(shù)是隨著(zhù)計算機技術(shù)和數字信號處理技術(shù)的發(fā)展而發(fā)展起來(lái)的,主要是讓計算機能夠產(chǎn)生高清晰度、高自然度的連續語(yǔ)音。近幾十年來(lái)國際和國內的研究主要集中在按規則文語(yǔ)轉換,即將書(shū)面語(yǔ)言轉換成口頭語(yǔ)言。在語(yǔ)音合成技術(shù)的發(fā)展中,早期的研究主要是采用參數合成方法。值得提及的是Holmes的并聯(lián)共振峰合成器(1973)和Klatt的串/并聯(lián)共振峰合成器(1980),只要精心調整參數,這兩個(gè)合成器都能合成出非常自然的語(yǔ)音。而最具代表性的文語(yǔ)轉換系統數美國DEC 公司的DECtalk(1987),該系統采用Klatt的串/并聯(lián)共振峰合成器,可以通過(guò)標準的接口和計算機連網(wǎng)或單獨接到電話(huà)網(wǎng)上提供各種語(yǔ)音信息服務(wù),它的發(fā)音清晰,并可產(chǎn)生七種不同音色的聲音,供用戶(hù)選擇。但是經(jīng)過(guò)多年的研究與實(shí)踐表明,由于準確提取共振峰參數比較困難,雖然利用共振峰合成器可以得到許多逼真的合成語(yǔ)音,但是整體合成語(yǔ)音的音質(zhì)難以達到文語(yǔ)轉換系統的實(shí)用要求。自八十年代末期至今,語(yǔ)言合成技術(shù)又有了新的進(jìn)展,特別是基音同步疊加(PSOLA)方法的提出(1990),使基于時(shí)域波形拼接方法合成的語(yǔ)音的音色和自然度大大提高。九十年代初,基于PSOLA技術(shù)的法語(yǔ)、德語(yǔ)、英語(yǔ)、日語(yǔ)等語(yǔ)種的文語(yǔ)轉換系統都已經(jīng)研制成功。這些系統的自然度比以前基于LPC方法或共振峰合成器的文語(yǔ)合成系統的自然度要高,并且基于PSOLA方法的合成器結構簡(jiǎn)單易于實(shí)時(shí)實(shí)現,有很大的商用前景。最近幾年,一種新的基于數據庫的語(yǔ)音合成方法正引起人們的注意。在這個(gè)方法中,合成語(yǔ)句的語(yǔ)音單元是從一個(gè)預先錄下的龐大的語(yǔ)音數據庫中挑選出來(lái)的, 不難想象只要語(yǔ)音數據庫足夠大,包括了各種可能語(yǔ)境下的語(yǔ)音單元,理論上講有可能拼接出任何語(yǔ)句。由于合成的語(yǔ)音基元都是來(lái)自自然的原始發(fā)音,合成語(yǔ)句的清晰度和自然度都將會(huì )非常高。
-----國內的漢語(yǔ)語(yǔ)音合成研究起步較晚些,但從八十年代初就基本上與國際上研究同步發(fā)展。大致也經(jīng)歷了共振峰合成、LPC合成至應用PSOLA技術(shù)的過(guò)程。在國家863計劃,國家自然科學(xué)基金委,國家攻關(guān)計劃,中國科學(xué)院有關(guān)項目等支持下,漢語(yǔ)文語(yǔ)轉換系統研究近年來(lái)取得了令人舉目的進(jìn)展,其中不乏成功的例子:如中國科學(xué)院聲學(xué)所的KX-PSOLA(1993), 聯(lián)想佳音(1995);清華大學(xué)的TH_SPEECH(1993);中國科技大學(xué)的KDTALK(1995)等系統。這些系統基本上都是采用基于PSOLA方法的時(shí)域波形拼接技術(shù),其合成漢語(yǔ)普通話(huà)的可懂度、清晰度達到了很高的水平。然而同國外其它語(yǔ)種的文語(yǔ)轉換系統一樣,這些系統合成的句子及篇章語(yǔ)音機器味較濃,其自然度還不能達到用戶(hù)可廣泛接受的程度,從而制約了這項技術(shù)的大規模進(jìn)入市場(chǎng)。
-----1998年中國科技大學(xué)在國家863 計劃和國家自然科學(xué)基金委支持下,研制成功KD-863漢語(yǔ)文語(yǔ)轉換系統。和采用國內外流行的PSOLA技術(shù)的系統相比,在輸出語(yǔ)音的音質(zhì)和自然度上有了突破性的提高。KD-863采用了一種全新的基于語(yǔ)音數據庫的語(yǔ)音合成方法, 該技術(shù)的基本思想是將實(shí)際語(yǔ)流中漢語(yǔ)音節千變萬(wàn)化的音變進(jìn)行聽(tīng)感上的量化歸并,設計出多樣本的漢語(yǔ)語(yǔ)音基元庫,這個(gè)庫蘊涵了漢語(yǔ)韻律變化信息,合成時(shí)只要通過(guò)對基元庫樣本的選取便可實(shí)現韻律控制。同時(shí)語(yǔ)音基元庫中的樣本是直接從自然語(yǔ)音中截取,避免了采用信號處理技術(shù)獲取音變單元對音質(zhì)的損害,因而合成語(yǔ)音具有接近自然語(yǔ)音的音質(zhì)。KD-863文語(yǔ)轉換系統一經(jīng)推出,就因其合成語(yǔ)音的高清晰度與高自然度引起了社會(huì )各方的重視。先后應用于為深圳華為技術(shù)公司設計的“114自動(dòng)電話(huà)報號系統”,和為國家工商總局設計的“工商企業(yè)語(yǔ)音(傳真)查詢(xún)系統”。使得漢語(yǔ)語(yǔ)音合成技術(shù)走出實(shí)驗室,向市場(chǎng)應用邁出了重要的一步。KD-863系統參加了在1998年4月國家科委組織的全國漢語(yǔ)語(yǔ)音合成系統的性能評測,其輸出語(yǔ)音的自然度居同類(lèi)系統之首,是唯一達到用戶(hù)可以接受程度的系統。KD-863還在日本,新加坡,香港的有關(guān)研究所和大學(xué)進(jìn)行過(guò)演示,均得到了有關(guān)方面專(zhuān)家的認同。最近中國科技大學(xué)又推出了KD-2000漢語(yǔ)文語(yǔ)轉換系統,不僅在語(yǔ)音合成技術(shù)方面有進(jìn)一步的發(fā)展,特別是在文本預處理中圍繞層次化結構思想,運用大量的統計和規則的方法,較好地解決了三個(gè)大的處理環(huán)節:特殊符號處理,分詞處理和拼接處理,使得漢語(yǔ)文語(yǔ)轉換系統的整體性能有很大提高。以KD-2000文語(yǔ)轉換為核心的“暢言2000”智能漢語(yǔ)平臺軟件已開(kāi)始進(jìn)入市場(chǎng)。
三 語(yǔ)音合成發(fā)展方向
1. 提高合成語(yǔ)音的自然度
-----提高合成語(yǔ)音的自然度仍然是高性能文語(yǔ)轉換的當務(wù)之急。就漢語(yǔ)語(yǔ)音合成來(lái)說(shuō),目前在單字和詞組一級上,合成語(yǔ)音的可懂度和自然度已基本解決,但是到句子乃至篇章一級時(shí)其自然度問(wèn)題就比較大。
-----基于語(yǔ)音數據庫的語(yǔ)音合成方法有望進(jìn)一步提高語(yǔ)音合成的自然度。 因為這是一種采用自然語(yǔ)音波形直接拼接的方法,進(jìn)行拼接的語(yǔ)音單元是從一個(gè)預先錄下的自然語(yǔ)音數據庫中挑選出來(lái)的,因此有可能最大限度地保留語(yǔ)音的自然度。但由此產(chǎn)生了一系列新的需要研究的問(wèn)題,包括:如何確定語(yǔ)音合成的基元,根據什么準則去挑選合適的基元;韻律參數定量化問(wèn)題,對數據庫進(jìn)行定標問(wèn)題;以及如何將統計的方法和規則方法相結合使機器能自動(dòng)發(fā)現和找出所需的語(yǔ)音單元,保證最高的合成語(yǔ)句自然度等等。
-----無(wú)論用哪種合成方法,韻律規則的總結,特別是連續語(yǔ)音的韻律規則總結,盡可能將定性的規則描述定量化,對自然度始終有最重要的影響。還有前端文本處理, 對合成語(yǔ)音的自然度也具有舉足輕重的影響, 完整全面的解決, 需要自然語(yǔ)言理解的突破。
2 豐富合成語(yǔ)音的表現力
-----目前國內外大多數語(yǔ)音合成研究是針對文語(yǔ)轉換系統,且只能解決以某種朗讀風(fēng)格將書(shū)面語(yǔ)言轉換成口語(yǔ)輸出,缺乏不同年齡、性別特征及語(yǔ)氣、語(yǔ)速的表現,更不用說(shuō)賦予個(gè)人的感情色彩。隨著(zhù)信息社會(huì )的需求發(fā)展,對人機交互提出了更高的要求,人機口語(yǔ)對話(huà)系統的研究也提到了日程上。即語(yǔ)音合成研究已開(kāi)始從文字到語(yǔ)音的轉換階段向概念到語(yǔ)音的轉換階段發(fā)展。這不僅對語(yǔ)音合成技術(shù)提出了更高的要求,而且涉及到計算機語(yǔ)言生成,涉及人類(lèi)大腦的高級神經(jīng)活動(dòng)。但就語(yǔ)音合成來(lái)說(shuō),仍是一個(gè)要豐富合成語(yǔ)音的表現力問(wèn)題。相對來(lái)說(shuō)采用波形拼接方法來(lái)增強合成語(yǔ)音表現力比較困難,盡管也可以通過(guò)增加音庫容量和音庫個(gè)數來(lái)達到改變合成語(yǔ)音的特性,但畢竟它對韻律的控制能力非常有限。更為有效的辦法是采用參數合成法,分析參數特征,通過(guò)對相關(guān)參數的調整來(lái)實(shí)現對年齡、性別特征的改變,進(jìn)一步實(shí)現語(yǔ)氣、語(yǔ)調的變化,由于這種改變是連續的,對象特征可以千千萬(wàn)萬(wàn),顯得更有生命力。近年來(lái)提出的基于LMA(對數振幅近似)技術(shù)的語(yǔ)音合成器,Hybrid Harmonic/Stochastic 模型 , Sinusoidal 模型等已被證實(shí)是一些新穎的能合成出高質(zhì)量語(yǔ)音的參數合成方法,為此應繼續深入這方面的研究,以期在參數合成技術(shù)上取得突破。
3 降低語(yǔ)音合成技術(shù)的復雜度
-----語(yǔ)音合成技術(shù)正在走向市場(chǎng)。為了適應社會(huì )的需求,擴大文語(yǔ)合成的應用場(chǎng)合,除了解決好上面兩個(gè)問(wèn)題,提高合成語(yǔ)音的質(zhì)量和增強語(yǔ)音合成的表現力以外,在其他實(shí)用化方面也有要加以改進(jìn)的地方。就目前漢語(yǔ)文語(yǔ)轉換系統而言,減小音庫容量就是一個(gè)重要課題。目前高質(zhì)量的漢語(yǔ)文語(yǔ)轉換系統一般需要幾兆字節到幾十兆,甚至幾百兆字節的存儲容量,這在以PC機或工作站為硬件平臺的應用中是沒(méi)有問(wèn)題的,而對于象HPC, PDA及無(wú)線(xiàn)通信手機,商務(wù)通等資源有限的設備上就沒(méi)法承受。解決的方法可以是通過(guò)語(yǔ)音壓縮編碼的方法來(lái)壓縮音庫所需的容量,或者采用更小的合成基元,例如用聲母、韻母或雙音素、半音節, 以及減少合成語(yǔ)音所需的音節基元數等等。然而又不能增加算法的復雜度,因為運算量及系統開(kāi)銷(xiāo)同樣會(huì )直接影響漢語(yǔ)語(yǔ)音合成的應用。既要提高語(yǔ)音合成的質(zhì)量,又要降低語(yǔ)音合成的復雜度,這始終是一個(gè)矛盾的兩個(gè)方面。
4 多語(yǔ)種文語(yǔ)合成
-----語(yǔ)言是人們交流的工具,不同民族有自己不同的語(yǔ)言,不同語(yǔ)言之間的交流在今天開(kāi)放的信息社會(huì )和網(wǎng)絡(luò )時(shí)代顯得十分重要,多語(yǔ)種的文語(yǔ)合成有著(zhù)獨特的應用價(jià)值。例如在自動(dòng)電話(huà)翻譯,有聲的電子郵件等中都提出多語(yǔ)種的合成,即使是對漢語(yǔ)合成也有多方言文語(yǔ)轉換的需求。理想的多語(yǔ)種合成系統最好是各種語(yǔ)言共用一種合成算法或語(yǔ)音合成器,但是現有的語(yǔ)音合成系統大多是針對某一種語(yǔ)言或若干種語(yǔ)言開(kāi)發(fā)出來(lái)的,所采用的算法及規則都是和某種語(yǔ)言密切相關(guān)的,因此很難推廣到其他的語(yǔ)種。例如漢語(yǔ)就和西方語(yǔ)言有很大的差異,國內的系統都是做漢語(yǔ)文語(yǔ)轉換,它的一套韻律控制規則完全不適合于英語(yǔ),而且主要是合成漢語(yǔ)普通話(huà),即使推廣到廣東話(huà)和上海話(huà)都有相當的難度。可見(jiàn)要真正解決多語(yǔ)種的文語(yǔ)合成,從文本處理到語(yǔ)音合成都必須有新的思路。美國貝爾實(shí)驗室在多語(yǔ)種文語(yǔ)轉換方面作了大量的工作,其中包括漢語(yǔ)普通話(huà)合成,值得注意。
四 結語(yǔ)
-----計算機要真正能夠象人一樣的說(shuō)話(huà),和人類(lèi)自由地進(jìn)行交談,這仍然是需假以時(shí)日,還有大量的研究工作要去做;今天的文語(yǔ)轉換系統只能機械地朗讀文章,與生動(dòng)活潑、感情豐富多彩的人類(lèi)語(yǔ)言相比差距是如此之大;但是毋庸置疑,語(yǔ)音合成技術(shù)確實(shí)已經(jīng)可以走出實(shí)驗室了,其潛在的巨大市場(chǎng)已露出曙光。
王仁華,男。現為中國科技大學(xué)、電子工程與信息科學(xué)系教授、博士生導師;中國科技大學(xué)、國家智能計算機研究開(kāi)發(fā)中心、人機語(yǔ)言通信研究評測室主任;中國通信學(xué)會(huì )會(huì )士、理事;安徽省通信學(xué)會(huì )副理事長(cháng);中國電子學(xué)會(huì )、中國儀器儀表學(xué)會(huì )、信號處理學(xué)會(huì )委員會(huì )委員;國家自然科學(xué)基金會(huì )自動(dòng)化學(xué)科評審組成員;全國信標委非鍵盤(pán)輸入分委員會(huì )委員;國際漢語(yǔ)口語(yǔ)處理委員會(huì )常任委員。自1999年起任國家863智能計算機成果轉換基地中央研究院院長(cháng),中科大訊飛信息科技股份有限公司董事長(cháng)。
訊飛暢言語(yǔ)音教具系統榮獲“創(chuàng )新軟件產(chǎn)品” 2009-09-08 |
科大訊飛嵌入式語(yǔ)音新產(chǎn)品發(fā)布會(huì )在深圳舉行 2009-09-07 |
“會(huì )說(shuō)話(huà)”的顯示屏提升居民小區信息服務(wù)水平 2009-09-07 |
訊飛語(yǔ)音助力太平人壽客服中心 2009-08-28 |
訊飛語(yǔ)音助力CDMA手機競爭終端市場(chǎng) 2009-08-14 |