奧運之聲——捷通華聲語(yǔ)音合成技術(shù)v4.0奧運版
2006/01/26
一、產(chǎn)品背景
捷通華聲公司于2002年12月承接了國家信息產(chǎn)業(yè)部下達的《奧運之聲-面向奧運的多語(yǔ)種聲訊服務(wù)平臺》任務(wù)的開(kāi)發(fā)工作。以此項目為基礎,捷通華聲全力投入到多語(yǔ)種語(yǔ)音合成平臺的設計和開(kāi)發(fā)工作中,并將此作為jTTS4.0升級的重要內容。
在2003年4月,捷通華聲公司又承擔了北京市科委下達的《面向奧運的多語(yǔ)種語(yǔ)音合成產(chǎn)品研制》項目。這一項目是《面向奧運的多語(yǔ)言智能信息服務(wù)網(wǎng)絡(luò )系統》的一項重要的子課題,《面向奧運的多語(yǔ)言智能信息服務(wù)網(wǎng)絡(luò )系統》是北京市科學(xué)技術(shù)委員會(huì )批準的2003年至2004年度重點(diǎn)科研項目,也是科技奧運十大專(zhuān)項之一。多語(yǔ)種語(yǔ)音合成產(chǎn)品是構成整個(gè)服務(wù)網(wǎng)絡(luò )系統的重要組成部分,其主要目的是:借助語(yǔ)音合成技術(shù),利用計算機將文本自動(dòng)播報出來(lái),按用戶(hù)選定的語(yǔ)種自動(dòng)播報出來(lái),本產(chǎn)品支持包括漢語(yǔ)、英語(yǔ)、日語(yǔ)在內的多種語(yǔ)言,從而打破語(yǔ)言的界限和隔閡,及時(shí)地以無(wú)障礙的語(yǔ)音形式提供各類(lèi)奧運信息;采用語(yǔ)音這種最自然的人機交流方式,提供信息發(fā)布、信息查詢(xún)、人機交互等多種形式的信息服務(wù),保證任何人在任何時(shí)間、任何地點(diǎn)、通過(guò)任何手段獲取奧運相關(guān)信息。
《jTTS4.0多語(yǔ)種語(yǔ)音合成平臺產(chǎn)品》正是在這個(gè)背景下推出的。我們相信,這一產(chǎn)品的推出,必然會(huì )有力地促進(jìn)國際交流,推動(dòng)奧運建設,為"科技奧運"、"人文奧運"貢獻自己的力量。
二、產(chǎn)品結構
1、核心結構

jTTS4.0多語(yǔ)種語(yǔ)音合成平臺系統結構如上圖所示。jTTS4.0多語(yǔ)種語(yǔ)音合成平臺是以一種開(kāi)發(fā)式的架構進(jìn)行設計的,其核心是一套統一的對外編程接口(API-Application
Programming Interface),即jTTS API 4.0,以及統一的多語(yǔ)種引擎管理模塊,即jTTS_ML.DLL。多語(yǔ)種的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多語(yǔ)種引擎管理模塊的調度下進(jìn)行實(shí)際的合成工作,而目前尚未提供的其他語(yǔ)種的引擎也可以方便地加入到這個(gè)體系結構中來(lái)。
jTTS_CH.DLL, jTTS_JP.DLL, jTTS_EN.DLL 等則為各個(gè)語(yǔ)種的TTS實(shí)際引擎。引擎和音色庫的基本概念如下:
- 每個(gè)引擎可以支持多個(gè)語(yǔ)種。
- 可以有多個(gè)引擎支持同一個(gè)語(yǔ)種,例如上圖中的 jTTS_CH2.DLL也支持中文。
- 每個(gè)引擎可以有多個(gè)音色(一般也對應了多個(gè)音庫),每個(gè)音色都有一個(gè)唯一的GUID 。
- 每個(gè)音色只能支持一種語(yǔ)種。
- 每個(gè)音色可以支持多個(gè)領(lǐng)域 (Domain),不同音色可以支持不同的領(lǐng)域范圍。
- 每種方言(例如廣東話(huà))是作為一個(gè)獨立語(yǔ)種出現。
2、產(chǎn)品體系結構

- 開(kāi)發(fā)工具包--包括開(kāi)發(fā)所需的頭文件、鏈接庫文件、示例程序。
- 語(yǔ)音合成服務(wù)器--語(yǔ)音合成服務(wù)軟件、監視工具等。
- 基本運行時(shí)刻庫--包括最基本的引擎管理模塊,通用工具,說(shuō)明書(shū)等。
- 多個(gè)獨立的音庫--包括相應的合成引擎和所需的文本分析庫、音庫。
- 多個(gè)獨立的資源包--每個(gè)資源包針對某個(gè)音庫以及一個(gè)特定領(lǐng)域。
用戶(hù)在使用時(shí)同樣可以采用本地合成方案、網(wǎng)絡(luò )合成方案、集群網(wǎng)絡(luò )合成方案進(jìn)行合成工作。
三、產(chǎn)品特點(diǎn)
- 支持多語(yǔ)種,支持多領(lǐng)域的設置。
- 支持音色的查找、訪(fǎng)問(wèn)、加載等。
- 支持SSML(語(yǔ)音合成標記語(yǔ)言,Speech Synthesis Markup language)。
- 可以直接播放文本文件,也支持外掛抽取文本的DLL以支持其它格式。
- 支持GB(包括 GB2312, GBK, GB18030)、Big5 、Shift-JIS、ISO-8859-1、Unicode、Unicode
Big Endian、UTF8 等各種字符集,自動(dòng)識別具有 BOM 標記的 Unicode 文本。
- 支持同步、異步合成一個(gè)Session ,通過(guò)被動(dòng)的回調函數方式給用戶(hù)傳遞數據。在原有版本的主動(dòng)獲取語(yǔ)音數據的基礎上又提供了一個(gè)選擇。
- 可以外掛語(yǔ)音格式轉換程序。
- 全新的中英文混讀引擎
中文引擎放棄了原來(lái)使用的第三方的英文引擎(即Microsoft Free的SAPI 英文引擎),采用了自行開(kāi)發(fā)的英文引擎,達到了清晰流利、中英文同一音色的效果。
- 預處理功能
中文引擎在預處理部分做了比較大的改進(jìn):
- 采用了基于分詞和詞性標注一體化的前端分析算法以及基于統計的韻律詞分析算法,提供了更好的韻律分析結果,閱讀更為自然流暢。
- 全面改進(jìn)了多音字處理算法,多音字的誤讀率大為下降。
- 改進(jìn)了數字符號讀法的分析算法,數字符號的讀法的閱讀準確率更高。同時(shí)支持數字、符號讀法的外部規則使用,提供給用戶(hù)自行定義數字符號讀法的方法。
- 多領(lǐng)域支持
中文引擎提供了多個(gè)領(lǐng)域的優(yōu)化資源包。例如,在天氣預報領(lǐng)域提供了利用模板拼接技術(shù)的特定領(lǐng)域音庫,在金融證券、旅游餐飲、體育賽事等領(lǐng)域提供了特定領(lǐng)域詞庫、預選音音庫等。通過(guò)這些針對不同專(zhuān)業(yè)領(lǐng)域的優(yōu)化資源包,可以大大提高特定領(lǐng)域文本的合成效果。同時(shí),多領(lǐng)域支持也采用了一種模塊化的方式,用戶(hù)可以自行安裝不同領(lǐng)域的資源包。
- 對SSML的支持
SSML(Speech Synthesis Markup Language) 語(yǔ)音合成標記語(yǔ)言定義了一套豐富的,基于 XML 的標記語(yǔ)言以支持在Web語(yǔ)音瀏覽器或者其它應用程序中生成合成語(yǔ)音。這一標記語(yǔ)言的的主要作用在于提供給合成內容的作者一個(gè)標準的方法來(lái)控制語(yǔ)音的各個(gè)方面,例如發(fā)音、音量、語(yǔ)速、基頻等。
從jTTS 4.0開(kāi)始,捷通華聲語(yǔ)音合成系統定義了S3ML (SinoVoice Speech Synthesis Markup Language)
--捷通華聲語(yǔ)音標記語(yǔ)言。S3ML符合基本的SSML規范,但更為詳細地定義了SSML沒(méi)有精確定義的部分(例如的具體語(yǔ)法),同時(shí)也支持一些針對中文語(yǔ)音合成的擴展。
捷通華聲公司供稿 CTI論壇編輯
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
天水市|
康平县|
石狮市|
营山县|
上饶市|
黔西县|
瓮安县|
梓潼县|
鄯善县|
尚志市|
博客|
东台市|
利辛县|
宿松县|
香港
|
巴中市|
武威市|
天全县|
滨海县|
嘉黎县|
蒙阴县|
察隅县|
池州市|
汶川县|
华坪县|
晋州市|
丁青县|
苏尼特右旗|
卓尼县|
仙居县|
德庆县|
邻水|
剑川县|
宝坻区|
万荣县|
勐海县|
瑞丽市|
黄冈市|
锦州市|
台中县|
墨竹工卡县|
http://444
http://444
http://444
http://444
http://444
http://444