神經(jīng)網(wǎng)絡(luò )與漢語(yǔ)TTS韻律模型
陶建華 蔡蓮紅 2001/06/01
韻律模型
每個(gè)人說(shuō)話(huà)的語(yǔ)音中都有一個(gè)基本頻率,被稱(chēng)做基頻,它體現了說(shuō)話(huà)人聲音的高低。在漢語(yǔ)文語(yǔ)轉換系統(TTS)中,對基頻、語(yǔ)音單元的長(cháng)度、說(shuō)話(huà)停頓、能量等韻律信息進(jìn)行預測的模塊一般稱(chēng)做韻律模塊。
眾所周知,漢語(yǔ)是一個(gè)有調的語(yǔ)言,這是它與其他西方語(yǔ)系最大的不同之處。漢語(yǔ)的每一個(gè)字(兒化音除外),通常都被認為是一個(gè)有調的音節。每一個(gè)聲調都有一些固定的調型(基頻形狀),但我們通常所說(shuō)的話(huà)往往是由多個(gè)字組成的連續語(yǔ)句,這些聲調的調型受相鄰其他字或詞的影響,常常會(huì )產(chǎn)生變換,甚至失去原有的調型,這就是漢語(yǔ)中常說(shuō)的協(xié)同發(fā)音現象。這也就是為什么人說(shuō)話(huà)時(shí)會(huì )有連續感,而不是一個(gè)字一個(gè)字地發(fā)音。同時(shí),連續語(yǔ)句發(fā)音的中間還會(huì )有短暫的停頓,這些又體現了人說(shuō)話(huà)的節奏感。漢語(yǔ)TTS韻律模型的主要任務(wù)就是根據文字中的信息,通過(guò)對基頻、音長(cháng)、停頓等參數的預測,達到控制TTS系統發(fā)音方式的目的,使發(fā)音自然、好聽(tīng)。
采用神經(jīng)網(wǎng)絡(luò )模型的背景
隨著(zhù)語(yǔ)音學(xué)和計算機技術(shù)的發(fā)展,TTS系統的研究目前已獲得了重大進(jìn)展,并成功地應用在許多不同的場(chǎng)合。但是,以往語(yǔ)音合成的結果與人自然流暢的發(fā)音仍相去甚遠,其中的關(guān)鍵就在于語(yǔ)音韻律模型還不很完善。另外,人有思想、會(huì )思考,語(yǔ)音合成系統不僅應該發(fā)音清晰、自然,還應該能像人一樣具有自我學(xué)習的功能,具有個(gè)人特色,甚至具有模擬特定人發(fā)音的能力。
近幾年來(lái),隨著(zhù)計算機處理的進(jìn)一步深入,從大量語(yǔ)料中提取連續語(yǔ)句的韻律特征已逐漸成為可能。鑒于神經(jīng)網(wǎng)絡(luò )具有良好的自動(dòng)學(xué)習和參數映射的特點(diǎn),可以使系統具有不斷自我學(xué)習和輸出優(yōu)化功能,因此,將神經(jīng)網(wǎng)絡(luò )用于語(yǔ)音合成系統的研究越來(lái)越受到重視。研究結果表明,對比傳統的規則語(yǔ)音合成方法,運用神經(jīng)網(wǎng)絡(luò )技術(shù)合成的語(yǔ)音的自然度均得到了相當程度的提高。
清華大學(xué)計算機系在國內最早進(jìn)行了神經(jīng)網(wǎng)絡(luò )用于漢語(yǔ)TTS系統的研究,目前已經(jīng)取得了非常成功的結果。所提出的帶特殊加權因子的神經(jīng)網(wǎng)絡(luò )韻律模型,無(wú)論在提高TTS系統自然度方面,還是在執行效率上,相比較其他已有的模型,均獲得了較大的提高。
清華大學(xué)計算機系對人機語(yǔ)音交互的研究始于1979年,并長(cháng)期致力于語(yǔ)音合成的聲學(xué)模型、韻律模型、文本分析、韻律描述語(yǔ)言、語(yǔ)音數字編碼、多媒體等相關(guān)技術(shù)的研究和開(kāi)發(fā)。下面介紹由清華大學(xué)計算機系人機交互與媒體集成研究所提出的漢語(yǔ)TTS系統神經(jīng)網(wǎng)絡(luò )韻律模型。
神經(jīng)網(wǎng)絡(luò )韻律模型的輸入和輸出
構筑神經(jīng)網(wǎng)絡(luò )韻律模型必須首先解決模型的輸入和輸出問(wèn)題。對TTS系統來(lái)說(shuō),系統的輸入就是從計算機屏幕或文件中得到的文字,輸出則是連續語(yǔ)音。因此,神經(jīng)網(wǎng)絡(luò )韻律模型的輸入必須是與文字相關(guān)的信息,通常稱(chēng)其為語(yǔ)境信息,而輸出則是與語(yǔ)音相關(guān)的韻律信息。
正如前面所述,當漢語(yǔ)中多個(gè)字組成詞或詞組而連續發(fā)音時(shí),它們之間會(huì )相互影響,形成較獨立、完整的韻律塊,這些韻律塊的韻律特征對語(yǔ)音的自然度起著(zhù)非常重要的作用,而不同的韻律塊組合在一起,往往可以形成不同的語(yǔ)調,使人的發(fā)音具有不同的語(yǔ)氣。根據這樣的思路,可以將漢語(yǔ)的文字信息沿著(zhù)語(yǔ)句(sentence)→短語(yǔ)(phrase)→音節(syllable)的思路劃分,共分為五組:音節(字)信息、相鄰音節(字)信息、短語(yǔ)信息、語(yǔ)句信息及重音信息。有17個(gè)參數能對漢語(yǔ)韻律產(chǎn)生重要的影響,這些參數就是神經(jīng)網(wǎng)絡(luò )韻律模型的輸入。當然,這些參數都能夠從文字中得到,但必須輔以另外的文本分析模塊。
神經(jīng)網(wǎng)絡(luò )的輸出就是漢語(yǔ)韻律控制參數。在基頻方面,使用SPiS模型,如圖1所示。
圖1 漢語(yǔ)音節基頻規格化模型--SPiS
神經(jīng)網(wǎng)絡(luò )的結構
神經(jīng)網(wǎng)絡(luò )的拓撲結構如圖2所示,基本可以分為三層,即輸入層(語(yǔ)境標注矢量層)、輸出層(韻律控制矢量層)和中間隱層。
圖2 韻律神經(jīng)網(wǎng)絡(luò )模擬
語(yǔ)音學(xué)的研究表明,漢語(yǔ)較其他語(yǔ)言更強調文字發(fā)音的輕重和語(yǔ)氣的走勢。前面所述的模型輸入參數(語(yǔ)境參數)被分為兩組,同時(shí)在其中一組上加入一個(gè)特殊的加權隱層,以突出改組的權重,該隱層的神經(jīng)元函數為:y=x2。
測試結果證明,加權隱層的引入使網(wǎng)絡(luò )結構進(jìn)一步體現了漢語(yǔ)獨特的韻律特點(diǎn),使網(wǎng)絡(luò )的收斂速度在原有的基礎上提高了約18%,從而較大地改善了網(wǎng)絡(luò )的收斂性。同時(shí),在模型的建立中,還利用概率分布的原理,采用輸出離散化并取其質(zhì)心的方法,對神經(jīng)網(wǎng)絡(luò )的輸出進(jìn)行優(yōu)化,使網(wǎng)絡(luò )的輸出精度進(jìn)一步提高了約7%,從而增強了網(wǎng)絡(luò )輸出值的穩定性,最大限度地減少了因輸入和輸出參數的隨機特性而導致的輸出誤差。
結果分析
1.可訓練漢語(yǔ)TTS系統
圖3 可訓練漢語(yǔ)TTS系統結構
圖3給出了完整的可訓練漢語(yǔ)TTS系統結構。
系統的構成分為用戶(hù)編程接口和TTS內核兩大部分。其中,內核部分又可按照系統運作的不同過(guò)程分為多個(gè)子模塊,包含了訓練模塊、文本分析模塊、神經(jīng)網(wǎng)絡(luò )韻律生成模塊、語(yǔ)音合成模塊以及與語(yǔ)料庫之間的通信協(xié)議等。同時(shí),系統還考慮了不同類(lèi)型用戶(hù)對TTS系統功能的需要,提供了豐富的編程接口。
系統使用了2270個(gè)句子分別對模型進(jìn)行了訓練和測試。語(yǔ)句內容涵蓋了漢語(yǔ)中常見(jiàn)的句型、漢語(yǔ)中所有的讀音、文字上下文的特性、聲調、重音等信息。語(yǔ)音的采樣頻率為16kHz。其中,75%的語(yǔ)料用來(lái)進(jìn)行訓練,而25%的語(yǔ)料則用來(lái)測試。
2.基頻控制參數(SPiS參數)的測試結果
圖4 陳述句基頻曲線(xiàn)的測試結果
韻律模型的基頻輸出基本反應了漢語(yǔ)語(yǔ)句的韻律特征。由圖4可以看出,其基頻參數的測試結果與真實(shí)的基頻參數比較接近,基頻變化過(guò)程基本保持了陳述語(yǔ)氣的下傾趨勢,同時(shí)它還反映出了發(fā)音過(guò)程的韻律塊特性。如圖中陳述句“他總標榜自己是一個(gè)老手”,受發(fā)音停頓的影響,“是”作為一個(gè)韻律短語(yǔ)的開(kāi)頭,其基頻和音域變得相對較高。另外,神經(jīng)網(wǎng)絡(luò )韻律模型還能很好地反映上聲變調的現象。如“老手”中的“老”字,受后音的影響,由上聲變?yōu)榱岁?yáng)平。
3.連續語(yǔ)句中音長(cháng)參數的測試結果
圖5 陳述句音節音長(cháng)參數的測試結果
神經(jīng)網(wǎng)絡(luò )韻律模型同樣輸出了較好的音節音長(cháng)參數,圖5很好地反映出了語(yǔ)句音長(cháng)的變換趨勢。由于在自然語(yǔ)句中,音節音長(cháng)參數對控制音節發(fā)音的節奏和輕重起著(zhù)非常重要的作用。我們對所有測試結果進(jìn)行的統計表明,81%的音節輸出誤差在0~50ms,約14%的音節輸出誤差在50~120ms,而只有約5%的音節輸出誤差會(huì )超過(guò)120ms。從音長(cháng)改變的百分比上看:89.8%的音節,其音長(cháng)輸出誤差占目標音長(cháng)的百分比在0~20%之間;另外,9%的音節輸出誤差百分比在20%~50%之間,而只有1.2%的音節輸出誤差百分比會(huì )超過(guò)50%。因此,該模型的音長(cháng)參數輸出結果基本上滿(mǎn)足了較高質(zhì)量韻律控制參數的要求。
將神經(jīng)網(wǎng)絡(luò )模型與已有的TTS系統相結合,改變了傳統的TTS系統的構筑方式。新系統合成語(yǔ)音的自然度得到了提高,同時(shí)也使語(yǔ)音合成系統中的韻律模型具有更強的適應性和可訓練性。新系統經(jīng)過(guò)學(xué)習和訓練,合成的語(yǔ)音能體現不同的韻律特征,增加了系統的靈活性和風(fēng)格的多樣性。大量測試表明,漢語(yǔ)神經(jīng)網(wǎng)絡(luò )韻律模型及其輸出參數的優(yōu)化方法,能適于漢語(yǔ)韻律特征的處理。目前,這一模型已集成在清華大學(xué)計算機系研制的語(yǔ)音合成系統中,輸出了較為滿(mǎn)意的合成語(yǔ)音,其輸出的語(yǔ)音自然度在相當程度上幾乎可以和自然語(yǔ)音相比,整體水平上達到了國際先進(jìn)水平并獲得專(zhuān)家和用戶(hù)的一致好評。
《計算機世界》 2001/06/01
語(yǔ)音技術(shù)的拓展與展望 2001-06-01 |
語(yǔ)音門(mén)戶(hù):讓網(wǎng)絡(luò )接入更便捷 2001-05-11 |
VoiceXML簡(jiǎn)介 2001-04-19 |
語(yǔ)音網(wǎng)站不是信息臺 2001-02-16 |
網(wǎng)絡(luò )與電話(huà)技術(shù)的完美結合 -- VoiceXml 2001-02-07 |