捷通華聲語(yǔ)音合成(jTTS)技術(shù)介紹及解決方案
2002/09/01
一、 捷通華聲TTS(jTTS)介紹
1. 捷通華聲TTS技術(shù)文語(yǔ)轉換的基本原理
捷通TTS技術(shù)文語(yǔ)轉換的基本結構:
語(yǔ)言學(xué)處理在文語(yǔ)轉換系統中起著(zhù)重要的作用,他主要是模擬人對自然語(yǔ)言的理解過(guò)程--文本規整、詞的切分、語(yǔ)法分析和語(yǔ)義分析,使計算機對輸入的文本能完全理解,并給出后兩部分所需要的各種發(fā)音提示。
韻律處理的目的是為合成語(yǔ)音規劃出音段特征,如音高、音長(cháng)和音強等,使合成語(yǔ)音能正確表達語(yǔ)意,聽(tīng)起來(lái)更加自然悅耳。
聲學(xué)處理的主要功能是根據前兩部分處理結果的要求輸出語(yǔ)音,即合成語(yǔ)音。
2. 捷通華聲TTS的特點(diǎn)
捷通華聲公司在2001年7月完成了最新版本的捷通華聲TTS核心。新版本基于大規模真實(shí)錄音的語(yǔ)音庫,音庫提供的樣本多,選音范圍大,可選擇到更匹配的發(fā)音,另外,在選音和拼接時(shí)將超越了音節的層次,能夠進(jìn)行詞甚至短句層次的拼接。因此,在自然度、可懂度方面捷通華聲新TTS具有較大的提高。再加上英文單詞的音色與中文保持一致,可支持GBK字庫中的所有字符的發(fā)音,新的捷通華聲TTS技術(shù)的合成的語(yǔ)音幾乎達到自然說(shuō)話(huà)的效果。
3. 捷通華聲TTS的進(jìn)一步發(fā)展方向
捷通華聲TTS將在下面幾個(gè)方向發(fā)展:
二、 捷通華聲TTS技術(shù)(jTTS)在CTI領(lǐng)域中的應用
捷通華聲TTS技術(shù)在CTI行業(yè)中的應用提供三種解決方案:本地接口調用方案、語(yǔ)音服務(wù)器方案、離線(xiàn)合成方案。
1. 捷通華聲TTS本地接口調用方案(jTTS SDK)
方案概論:
本地接口調用方案提供捷通華聲TTS開(kāi)發(fā)工具包(jTTS-SDK)可使用戶(hù)在其開(kāi)發(fā)的系統中加入語(yǔ)音合成的功能。jTTS-SDK是基于Win32(32位Windows環(huán)境,包括Windows95/98/2000/NT)平臺下的開(kāi)發(fā)工具包,因此這種方案要求使用方的聲訊服務(wù)系統所運行的是32
位Windows環(huán)境的服務(wù)器,并且需要對使用方系統進(jìn)行部分程序的改造。該方案適用于要求使用方具有二次開(kāi)發(fā)能力的集成和應用商。
本地接口調用方案架構圖
2. 捷通華聲TTS語(yǔ)音服務(wù)器方案 (jTTS Service )
方案概論:
語(yǔ)音服務(wù)器方案直接提供裝載有捷通華聲TTS語(yǔ)音服務(wù)系統的高性能的服務(wù)器,它與現有的聲訊服務(wù)相平行,接受其指令和文字數據流,合成產(chǎn)生語(yǔ)音數據流返給原系統,適用于電信、大型企業(yè)CTI系統及聲訊臺改造、升級。
語(yǔ)音服務(wù)器方案架構圖
技術(shù)優(yōu)勢:
1. 降低了客戶(hù)端機器的配置需求。
2. 通過(guò)TCP/IP協(xié)議實(shí)現了跨操作系統的語(yǔ)音合成服務(wù)功能,可以滿(mǎn)足非Win32平臺的需求。
3. 對于服務(wù)規模較大的系統可實(shí)現語(yǔ)音服務(wù)器的分布式工作方式,對客戶(hù)端的請求自動(dòng)調度,平衡負載,以達到更高的性能。
應用領(lǐng)域:
采用語(yǔ)音服務(wù)器方案可在不改變現有服務(wù)系統的條件下,平行地建立捷通華聲TTS語(yǔ)音服務(wù)器,安全、高效率地將原來(lái)的文本服務(wù)擴大為文本-語(yǔ)音同時(shí)服務(wù),是大型、專(zhuān)業(yè)級的語(yǔ)音服務(wù)解決方案,并可跨平臺實(shí)現。捷通華聲TTS語(yǔ)音服務(wù)器方案可服務(wù)于160、168等聲訊臺、UMS統一信息服務(wù)系統、呼叫中心、語(yǔ)音郵件商、WAP網(wǎng)站、進(jìn)行網(wǎng)上播音的.com公司等。
3. 捷通華聲TTS離線(xiàn)合成方案(jTTS Builder)
方案概論:
捷通華聲TTS離線(xiàn)合成方案提供離線(xiàn)合成工具,這是基于Microsoft Windows 95/98/NT/2000的獨立應用程序,可提供離線(xiàn)的語(yǔ)音合成服務(wù),批量地將文字轉換為語(yǔ)音數據文件,適用于海量信息、相對穩定或不要求實(shí)時(shí)轉化的聲訊服務(wù)場(chǎng)合,可以直接替代傳統的錄音方法,對原有系統完全無(wú)需改造,節省人力,提高效率。
離線(xiàn)合成方案系統架構圖
三、 捷通華聲TTS(jTTS)在嵌入式操作系統下的應用
捷通華聲公司的TTS技術(shù)與其他文語(yǔ)轉換系統相比具有獨特的音庫壓縮特點(diǎn),使捷通華聲TTS技術(shù)向嵌入式操作系統的移植(尤其是向PDA上的移植)具備先決條件。據市場(chǎng)調研及考證:捷通華聲公司是目前最早掌握該技術(shù),及最先提出在掌上電腦應用該技術(shù)的公司。該系統在2001年中關(guān)村電腦節上榮獲十大"IT創(chuàng )新產(chǎn)品"。
捷通華聲TTS技術(shù),以大規模真實(shí)錄音的語(yǔ)音庫為基礎,增加音庫壓縮算法和音色變換算法形成核心技術(shù)。此核心技術(shù)與國內其他文語(yǔ)轉換技術(shù)相比較,具有如下特點(diǎn):
· 系統輸出語(yǔ)音清晰度高。
· 系統輸出可懂度高。
· 輸出自然度基本與人正常說(shuō)話(huà)持平。
· 音庫大小可縮擴,小音庫僅為1MB。
正是因為捷通華聲TTS具有以上的特點(diǎn),使得捷通華聲公司的TTS技術(shù)可以向嵌入式操作系統移植。特別是小音庫的特點(diǎn),使得在嵌入式操作系統下不會(huì )占用太大的資源。
詳細方案請參照捷通TTS在掌上電腦、信息家電等領(lǐng)域的解決方案
四、 捷通華聲TTS(jTTS)在語(yǔ)音網(wǎng)站中的應用
公司將捷通華聲TTS技術(shù)和流媒體(Streaming Media)技術(shù)相結合,開(kāi)發(fā)設計了專(zhuān)門(mén)針對語(yǔ)音網(wǎng)站的全面技術(shù)解決方案,并在國內率先推出了首家有聲網(wǎng)站,為網(wǎng)站的"有聲化"開(kāi)創(chuàng )了先河。語(yǔ)音網(wǎng)站技術(shù)的推出,將使網(wǎng)站變得更加有聲有色,吸引更多網(wǎng)絡(luò )愛(ài)好者,使網(wǎng)絡(luò )更加貼近廣大用戶(hù)的生活。捷通華聲TTS技術(shù)在網(wǎng)站有聲化方面,具有極廣泛的應用前景,特別適合用于為網(wǎng)民提供新聞、財經(jīng)、生活、文藝、
體育等各類(lèi)有聲的信息服務(wù)。
詳細方案請參照捷通華聲語(yǔ)音網(wǎng)站解決方案
五、 捷通華聲TTS(jTTS)在桌面產(chǎn)品中的應用
利用捷通華聲TTS技術(shù)可開(kāi)發(fā)辦公、教學(xué)、娛樂(lè )等智能多媒體應用軟件,使這些軟件增加了"說(shuō)"的功能,豐富軟件的內涵。目前公司利用TTS開(kāi)發(fā)應用軟件產(chǎn)品有:"錄易漢語(yǔ)智能輸入輸出系統"、"捷通聽(tīng)霸"。在"錄易漢語(yǔ)智能輸入輸出系統"中利用TTS做為智能輸入后的語(yǔ)音校對,是國內第一家將TTS技術(shù)與智能輸入技術(shù)相結合的廠(chǎng)商。在"捷通聽(tīng)霸"軟件中利用語(yǔ)音合成技術(shù)實(shí)現了閱讀電子文檔、鍵盤(pán)輸入時(shí)的即時(shí)語(yǔ)音校對、語(yǔ)音鬧鐘、卡通角色說(shuō)話(huà)的功能。
應用案例請參考《捷通聽(tīng)霸TB 3000》產(chǎn)品介紹
六、 成功案例
捷通華聲TTS技術(shù)自推出以來(lái),已成功地在電信、證券等行業(yè)中得到了廣泛的應用,并已進(jìn)入臺灣市場(chǎng),其中典型的案例包括:
· 鐵通-中鐵綜合信息服務(wù)網(wǎng)(CRIS-China Railway Information System)
· 賽迪呼叫中心
· 博時(shí)基金客戶(hù)服務(wù)中心
· 臺灣中華電信呼叫中心
· 天津移動(dòng)呼叫中心
· 大連國泰君安證券平臺系統
· 大連大開(kāi)信證券平臺系統
· 深圳市政府紀委電話(huà)咨詢(xún)系統
· 福建省179平臺
· 美國奧維平臺系統