首頁(yè)>>廠(chǎng)商>>語(yǔ)音識別與合成>>捷通華聲

開(kāi)放式語(yǔ)音架構與新一代呼叫中心應用
--具有前瞻性的捷通華聲"奧運之聲"TTS引擎解析

2004/04/23

呼叫中心的發(fā)展趨勢

  隨著(zhù)改革開(kāi)放的腳步不斷加快,中國在政治、經(jīng)濟、文化等各個(gè)領(lǐng)域的國際化程度也在迅速提高,特別是近幾年來(lái),隨著(zhù)中國加入WTO、成功申辦北京奧運會(huì )、成功申辦上海世博會(huì )、博鰲論壇的成功舉辦,人們可以清楚的看到,中國已經(jīng)成為世界上最重要的國際交流中心之一。在中國走向世界的進(jìn)程中,各行各業(yè)都在不斷進(jìn)行著(zhù)自我完善,來(lái)適應這一變化的需要,CTI行業(yè)也不例外。

  在CTI領(lǐng)域里,人們首先感受到的是越來(lái)越多的國際知名企業(yè)、優(yōu)秀產(chǎn)品、先進(jìn)技術(shù)相繼進(jìn)入中國CTI市場(chǎng),即為中國的CTI技術(shù)發(fā)展提供了強大的動(dòng)力,也給國內的企業(yè)帶來(lái)了巨大的壓力。各廠(chǎng)商在不斷提升自我競爭能力的同時(shí),也在積極尋找CTI新的應用點(diǎn),進(jìn)而使整個(gè)CTI產(chǎn)業(yè)無(wú)論是在技術(shù)上還是在應用上都在朝著(zhù)國際化方向飛速發(fā)展。

  捷通華聲公司作為語(yǔ)音技術(shù)核心供應商,敏銳的捕捉到了這一市場(chǎng)變化,并早在2年多以前便開(kāi)始著(zhù)手準備,因而走了語(yǔ)音產(chǎn)業(yè)國際化發(fā)展的前列。

  捷通華聲公司由北京捷通軟件公司投資、我國著(zhù)名語(yǔ)音專(zhuān)家呂士楠教授主持創(chuàng )建于2000年10月,并于2001年7月發(fā)布了具有里程碑意義的新一代語(yǔ)音合成產(chǎn)品--jTTS2.0,從此語(yǔ)音合成技術(shù)進(jìn)入了大規模商用時(shí)代。就在各競爭對手爭相模仿的時(shí)候,捷通華聲已經(jīng)清楚的認識到:語(yǔ)音技術(shù)的發(fā)展必須走國際化道路。一方面,我們的技術(shù)必須走出國門(mén),與國際同類(lèi)產(chǎn)品同場(chǎng)競技,取得國際上的一致認可;另一方面,我們必須積極吸取國外先進(jìn)的經(jīng)驗,使自己的技術(shù)能夠得到不斷的提升。在隨后的1年多中,捷通華聲按照這一方針"內外兼修",無(wú)論是在技術(shù)上還是在市場(chǎng)上都獲得了巨大的成功,并已成為國際知名語(yǔ)音技術(shù)供應商之一。

  2003年初,北京科技奧運十大重點(diǎn)項目陸續啟動(dòng),捷通華聲憑借雄厚的技術(shù)實(shí)力和良好的企業(yè)信譽(yù),一舉中標《面向奧運的多語(yǔ)言語(yǔ)音合成產(chǎn)品研制》項目,為捷通華聲進(jìn)一步發(fā)展多語(yǔ)言語(yǔ)音合成產(chǎn)品提供了良好的契機。

  "科技奧運"項目的需求與目前中國的呼叫中心市場(chǎng)需求有著(zhù)很高的一致性,那就是要求開(kāi)放式的架構和國際化服務(wù)手段、服務(wù)質(zhì)量。呼叫中心已經(jīng)不再是只為中國人服務(wù),而是要充分考慮到各種國際政治、文化、商業(yè)活動(dòng)的實(shí)際需求,為世界各國友人提供服務(wù)的必要手段。針對這一需求,捷通華聲用了近一年的時(shí)間潛心研究,并于2004年初發(fā)布了最新的語(yǔ)音合成產(chǎn)品"奧運之聲"(OlyVoice)--捷通華聲語(yǔ)音合成奧運版v4.0。該產(chǎn)品著(zhù)重設計了開(kāi)放式的系統架構和多語(yǔ)種語(yǔ)音合成需求。

奧運之聲--捷通華聲開(kāi)放式語(yǔ)音合成架構

  捷通華聲語(yǔ)音合成奧運版v4.0(簡(jiǎn)稱(chēng):jTTS奧運版)是以一種開(kāi)發(fā)式的架構進(jìn)行設計的(如下圖所示),其核心是一套統一的對外編程接口(API-Application Programming Interface),即jTTS API 4.0,以及統一的多語(yǔ)種引擎管理模塊,即jTTS_ML.DLL。多語(yǔ)種的引擎(例如中文引擎jTTS_CH.DLL,英文引擎jTTS_EN.DLL等)在多語(yǔ)種引擎管理模塊的調度下進(jìn)行實(shí)際的合成工作,而目前尚未提供的其他語(yǔ)種的引擎也可以方便地加入到這個(gè)體系結構中來(lái)。


統一的應用程序接口

jTTS_ML.DLL是主要模塊,在這個(gè)模塊中完成多數統一的工作。包括:

·各個(gè)語(yǔ)種引擎和音庫的管理、加載、卸載、選擇。
·與外部設備相關(guān)而與具體引擎無(wú)關(guān)的工作,例如打開(kāi)文件,聲卡或文件輸出等。
·各個(gè)語(yǔ)種幾乎相同的工作,例如SSML TAG的處理等。
  jTTS_ML.DLL基本保持和jTTS_MA.DLL函數接口的一致性,但進(jìn)行了一定的改動(dòng)。這些改動(dòng)主要是吸取了在前幾個(gè)版本中的開(kāi)發(fā)經(jīng)驗和用戶(hù)的意見(jiàn)反饋,因此現有的API更為簡(jiǎn)潔方便、功能卻更為強大。

充分的兼容性設計
  新版本的jTTS_MA.DLL是為了保持向下兼容,它完全繼承原有的jTTS API 3.0的所有函數,不增加也不刪減任何函數。因此,它也僅能完成以前版本的功能(但可以利用最新的中文引擎,提高聲音質(zhì)量),提供它的目的僅僅在于用戶(hù)能夠不改動(dòng)原有程序繼續運行,但如果希望使用新的功能,必須使用jTTS_ML.DLL,利用新的API進(jìn)行開(kāi)發(fā)。

支持多種調用方式
  jTTS4.ocx是在jTTS_ML.DLL之上的一個(gè)ActiveX控件,主要作用是以COM接口的方式提供了TTS的功能,方便Web頁(yè)面開(kāi)發(fā)或者VB等編程語(yǔ)言的開(kāi)發(fā)。由于COM接口支持的開(kāi)發(fā)工具非常廣泛、語(yǔ)言類(lèi)型多種多樣,因此用戶(hù)可以通過(guò)使用jTTS4.ocx組件來(lái)開(kāi)發(fā)TTS應用程序,以達到適應多種開(kāi)發(fā)環(huán)境、簡(jiǎn)化開(kāi)發(fā)過(guò)程的目的。使用此控件可以實(shí)現向文件或聲卡輸出,所有的設置、回調等功能也和jTTS_ML.DLL所提供的功能基本類(lèi)似,但是它沒(méi)有底層合成(即Session)的概念,也不能直接獲得語(yǔ)音數據流。

  語(yǔ)音合成服務(wù)器jTTSService.EXE提供了對基于網(wǎng)絡(luò )的TTS服務(wù)的支持,讓用戶(hù)可以采用網(wǎng)絡(luò )合成方案或集群網(wǎng)絡(luò )合成方案進(jìn)行合成。此語(yǔ)音合成服務(wù)器軟件作為Windows系統上的一個(gè)服務(wù)(Service)或Linux系統上的一個(gè)守護程序(daemon)實(shí)現,監聽(tīng)網(wǎng)絡(luò )端口號,如果有連接,則通過(guò)jTTS Service Protocol 4.0版本為客戶(hù)端提供語(yǔ)音合成的服務(wù)。

良好的可擴展性
  系統采用外掛DLL的方式來(lái)提高擴展性。外掛DLL包括兩種:一種是文本抽取DLL,另一種是語(yǔ)音格式轉換DLL。在閱讀文件時(shí)(通過(guò)jTTS_Play或jTTS_PlayToFile),可以通過(guò)外掛的DLL來(lái)進(jìn)行文本的抽取,然后利用TTS的功能進(jìn)行合成,例如閱讀DOC文件或者Email。而得到語(yǔ)音數據后,可以利用外掛的語(yǔ)音格式轉換DLL來(lái)得到系統本身不支持的語(yǔ)音格式。

新增多種實(shí)用功能
·支持多語(yǔ)種,支持多領(lǐng)域的設置
·支持音色的查找、訪(fǎng)問(wèn)、加載等
·支持SSML (語(yǔ)音合成標記語(yǔ)言, Speech Synthesis Markup language)
·可以直接播放文本文件,也支持外掛抽取文本的DLL以支持其它格式。
·支持GB(包括GB2312, GBK, GB18030)、Big5、Shift-JIS、ISO-8859-1、Unicode、Unicode Big Endian、UTF8等各種字符集,自動(dòng)識別具有BOM標記的Unicode文本。
·支持同步、異步合成一個(gè)Session,通過(guò)被動(dòng)的回調函數方式給用戶(hù)傳遞數據。在原有版本的主動(dòng)獲取語(yǔ)音數據的基礎上又提供了一個(gè)選擇。
·可以外掛語(yǔ)音格式轉換程序。

  所有這些,都是捷通華聲在語(yǔ)音合成架構上具有前瞻性的設計,通過(guò)這樣的系統結構,用戶(hù)可以靈活的為新一代呼叫中心、UMS系統添加豐富的語(yǔ)音合成資源,使整個(gè)系統最大限度的發(fā)揮其功效,為最終用戶(hù)提供方便實(shí)用的服務(wù)體系。

  除了在系統結構上的重大改進(jìn)外,捷通華聲在語(yǔ)音合成核心上也進(jìn)行了深入的研究,并取得了重大突破。與以往的版本相比,新的中文合成核心主要進(jìn)行了下列改進(jìn):

新的英文引擎支持
中文引擎放棄了原來(lái)使用的第三方的英文引擎,采用了自行開(kāi)發(fā)的英文引擎,達到了清晰流利、中英文同一音色的效果。

新的預處理
·采用了基于分詞和詞性標注一體化的前端分析算法以及基于統計的韻律詞分析算法,提供了更好的韻律分析結果,閱讀更為自然流暢。
·全面改進(jìn)了多音字處理算法,多音字的誤讀率大為下降。
·改進(jìn)了數字符號讀法的分析算法,數字符號的讀法的閱讀準確率更高。同時(shí)支持數字、符號讀法的外部規則使用,提供給用戶(hù)自行定義數字符號讀法的方法。

多領(lǐng)域支持
  中文引擎提供了多個(gè)領(lǐng)域的優(yōu)化資源包。例如,在天氣預報領(lǐng)域提供了利用模板拼接技術(shù)的特定領(lǐng)域音庫,在金融證券、旅游餐飲、體育賽事等領(lǐng)域提供了特定領(lǐng)域詞庫、預選音音庫等。通過(guò)這些針對不同專(zhuān)業(yè)領(lǐng)域的優(yōu)化資源包,可以大大提高特定領(lǐng)域文本的合成效果。同時(shí),多領(lǐng)域支持也采用了一種模塊化的方式,用戶(hù)可以自行地安裝不同領(lǐng)域的資源包。

對SSML的支持
  SSML(Speech Synthesis Markup Language)語(yǔ)音合成標記語(yǔ)言定義了一套豐富的,基于XML的標記語(yǔ)言以支持在Web語(yǔ)音瀏覽器或者其它應用程序中生成合成語(yǔ)音。這一標記語(yǔ)言的的主要作用在于提供給合成內容的作者一個(gè)標準的方法來(lái)控制語(yǔ)音的各個(gè)方面,例如發(fā)音、音量、語(yǔ)速、基頻等。SSML目前是W3C的草案,具體內容參見(jiàn) http://www.w3.org/TR/speech-synthesis/

  從jTTS 4.0開(kāi)始,捷通華聲語(yǔ)音合成系統定義了S3ML (SinoVoice Speech Synthesis Markup Language)-捷通華聲語(yǔ)音標記語(yǔ)言。S3ML符合基本的SSML規范,但更為詳細地定義了SSML沒(méi)有精確定義的部分(例如的具體語(yǔ)法),同時(shí)也支持一些針對中文語(yǔ)音合成的擴展。

  新版本將繼續支持原jTTS 3.0版本支持的文本標注方法(成為jTTS Tag),但jTTS Tag將不再發(fā)展。如有需要,新的應用程序應該使用S3ML對文本進(jìn)行標注,以控制語(yǔ)音合成效果的功能,并獲得靈活的可擴展性。

  面向科技奧運,面向新一代呼叫中心應用,捷通華聲做好了充分的準備,奧運之聲(OlyVoice)將與CTI行業(yè)的眾多合作伙伴一起,引領(lǐng)用戶(hù)進(jìn)入一個(gè)全新的、開(kāi)放式的CTI時(shí)代,整個(gè)CTI行業(yè)將在國際化、標準化、產(chǎn)業(yè)化方向上邁上一個(gè)新的臺階。

捷通華聲公司供稿 CTI論壇編輯



相關(guān)鏈接:
捷通華聲發(fā)布jASR5.5 ASR價(jià)格面前將無(wú)怯步 2008-04-16
捷通華聲TTS成功登陸中國郵政儲蓄銀行 2008-04-03
捷通華聲 jTTS 5.5 全面支持 MRCPv2標準 2008-03-31
捷通華聲移動(dòng)導航HCI解決方案廣受青睞 2008-03-26
身邊的“智能”生活 2007-12-28

分類(lèi)信息:     文摘   技術(shù)_語(yǔ)音合成_文摘
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 光泽县| 西藏| 庆城县| 鄂托克前旗| 惠安县| 屏东市| 岢岚县| 武功县| 尉犁县| 启东市| 垦利县| 喀喇| 平安县| 屯留县| 磐石市| 辽中县| 伊宁县| 鄂托克旗| 平顶山市| 临沭县| 调兵山市| 社会| 永胜县| 建瓯市| 达孜县| 锦州市| 璧山县| 开封市| 灵武市| 绍兴市| 博湖县| 文成县| 井研县| 通州区| 来安县| 弋阳县| 崇左市| 英吉沙县| 科尔| 红桥区| 萨嘎县| http://444 http://444 http://444 http://444 http://444 http://444