近日,捷通華聲宣布推出最新版靈云語(yǔ)音合成技術(shù)--jTTS6.1版本,該版本語(yǔ)音播報更加流暢、自然,更加適合于各領(lǐng)域、各行業(yè)實(shí)時(shí)文本信息、及大眾生活中的社會(huì )新聞、閱讀等語(yǔ)音播報,這也是繼靈云語(yǔ)音識別技術(shù)jASR6.1之后,靈云智能語(yǔ)音交互技術(shù)再次實(shí)現新的跨越。
淺談?wù)Z(yǔ)音合成
語(yǔ)音合成(Speech Synthesis)就是人工合成人類(lèi)的聲音,簡(jiǎn)單地講:就是讓計算機“開(kāi)口說(shuō)話(huà)”。語(yǔ)音合成技術(shù)的學(xué)名是“文語(yǔ)轉換系統”,也常常被稱(chēng)作TTS(Text To Speech)技術(shù),是指將文本信息轉變?yōu)檎Z(yǔ)音數據,以語(yǔ)音的方式播放出來(lái)的技術(shù)。該項技術(shù)的目的就是讓計算機將文字“讀”出來(lái),其追求的目標是計算機“讀”出的聲音清晰、可懂、自然、具有表現力。
國內的漢語(yǔ)語(yǔ)音合成研究雖然起步較晚,但自上世紀八十年代開(kāi)始,國內漢語(yǔ)語(yǔ)音合成研究基本與國際研究同步發(fā)展,為中國語(yǔ)音合成技術(shù)后來(lái)的廣泛應用奠定了堅實(shí)的基礎。
創(chuàng )建于2000年的北京捷通華聲語(yǔ)音技術(shù)公司,是國內最早從事中文TTS研究與應用的企業(yè),2001年,捷通華聲推出了具有國際領(lǐng)先水平的TTS世紀版,是國內第一項基于大容量真實(shí)錄音庫和韻律層級分析技術(shù)的語(yǔ)音合成技術(shù),在自然度和流暢度上達到了一個(gè)嶄新的水平,標示著(zhù)中國中文語(yǔ)音合成技術(shù)開(kāi)始進(jìn)入商品實(shí)用化階段。如今,捷通華聲中文語(yǔ)音合成(TTS)技術(shù)在國內已處于絕對領(lǐng)先地位,市場(chǎng)占有率超過(guò)50%。十幾年來(lái),捷通華聲始終堅持自主研究語(yǔ)音合成(TTS)、語(yǔ)音識別(ASR)等智能人機交互(HCI)技術(shù),并不斷推出粵語(yǔ)、維吾爾語(yǔ)等方言與少數民族語(yǔ)音合成技術(shù),為保證我國中文智能語(yǔ)音技術(shù)始終處于世界領(lǐng)先地位做出了主要貢獻,也成為推動(dòng)語(yǔ)音合成技術(shù)在CTI等領(lǐng)域中廣泛應用的主要力量。
語(yǔ)音合成:CTI系統中不可或缺的關(guān)鍵技術(shù)
現在在CTI產(chǎn)業(yè)中廣泛應用的智能語(yǔ)音交互技術(shù)包含了語(yǔ)音合成、語(yǔ)音識別和自然語(yǔ)言理解等智能人機交互技術(shù)(HCI),如上所述,語(yǔ)音合成技術(shù)在我國HCI技術(shù)領(lǐng)域中起步最早,并叩開(kāi)了語(yǔ)音絢爛多彩的應用大門(mén)。語(yǔ)音合成技術(shù)解決的主要問(wèn)題是如何將文本信息轉化為聲音信息,并能夠讓機器輸出清晰、流暢的連續語(yǔ)音。在語(yǔ)音合成技術(shù)應用之前,呼叫中心主要采用錄音回放的方式進(jìn)行語(yǔ)音服務(wù)。錄音存在高成本、靈活性差、信息滯后等問(wèn)題,急需尋求一種替代方案。在這一背景下,語(yǔ)音合成技術(shù)獲得飛速發(fā)展及大規模產(chǎn)業(yè)應用,在這一時(shí)期,國內以捷通華聲為代表的高新技術(shù)企業(yè)迅速切入市場(chǎng),在金融、電信、能源、交通等行業(yè)的呼叫中心中使語(yǔ)音合成技術(shù)形成商品化的全面應用。
良好的客服播報聲音是獲得用戶(hù)好感的首要因素,當你在撥通客服電話(huà)時(shí)卻不會(huì )感覺(jué)到電話(huà)那端是機器合成的播報聲音,這就是靈云語(yǔ)音合成的精彩之處。歷經(jīng)十幾年的發(fā)展,捷通華聲的“靈云TTS”已經(jīng)發(fā)展到支持英、法、德、俄等十三種世界語(yǔ)言。在建設銀行中,靈云粵語(yǔ)、英語(yǔ)、韓語(yǔ)等多語(yǔ)種語(yǔ)音合成技術(shù)在流暢地為用戶(hù)服務(wù),而國家電網(wǎng)電話(huà)端的語(yǔ)音播報則全程通過(guò)靈云語(yǔ)音合成來(lái)完成。新版靈云語(yǔ)音合成平臺將把朗讀能力進(jìn)一步強化,在具備近似真人發(fā)聲的基礎上,配合呼叫中心進(jìn)行多元化發(fā)展,適應呼叫中心多方面的業(yè)務(wù)需求。作為呼叫中心最基礎、最重要的技術(shù),語(yǔ)音合成在未來(lái)依然能與時(shí)俱進(jìn),發(fā)揮其中流砥柱的作用。
智能語(yǔ)音交互:呼叫中心的前景與未來(lái)
語(yǔ)音合成雖然發(fā)展得比較成熟,但語(yǔ)音對話(huà)是一個(gè)來(lái)往通信的過(guò)程,單一的技術(shù)無(wú)法形成環(huán)路,也滿(mǎn)足不了日益發(fā)展的呼叫中心的需要。于是,語(yǔ)音技術(shù)開(kāi)始由“說(shuō)”向“聽(tīng)”發(fā)展,作為實(shí)現人機語(yǔ)音交互的另一種重要支撐--語(yǔ)音識別開(kāi)始從實(shí)驗室走向前臺。在清華大學(xué)科研力量的幫助下,捷通華聲的語(yǔ)音識別已取得了突破性的進(jìn)展,新版靈云語(yǔ)音識別和語(yǔ)音合成組成的“雙能力平臺”將為國內呼叫中心提供更全面的智能語(yǔ)音解決方案。
系統集成商及軟件企業(yè)可以在客服質(zhì)檢、IVR導航等系統中將語(yǔ)音合成、語(yǔ)音識別等技術(shù)自由組合應用,在語(yǔ)音質(zhì)檢中,企業(yè)可以通過(guò)靈云語(yǔ)音識別平臺實(shí)現客戶(hù)和客服的話(huà)者分離,同時(shí)把語(yǔ)音轉寫(xiě)成文本,再通過(guò)自然語(yǔ)言理解對海量語(yǔ)音的內容進(jìn)行全方位的深入分析,利用數據分析手段達到完善客服質(zhì)量、分析輿情走向、提升用戶(hù)體驗、增強業(yè)務(wù)拓展成功性等目的。而在IVR導航中則是用語(yǔ)音合成、語(yǔ)音識別形成一個(gè)穿針引線(xiàn)的過(guò)程,一方面讓用戶(hù)在流暢自然的播報中獲得良好的聽(tīng)覺(jué)體驗,一方面還可以通過(guò)自助語(yǔ)音服務(wù)快速獲取所需要的內容,節省了企業(yè)大量的成本,提高企業(yè)和用戶(hù)雙方的溝通效率。捷通華聲通過(guò)多項智能語(yǔ)音技術(shù)為呼叫中心開(kāi)拓了全新的發(fā)展思路,企業(yè)可以將多項技術(shù)結合,全面提升呼叫中心智能化水平,為業(yè)務(wù)部門(mén)決策、流程制定提供更加有效的支撐。
未來(lái)發(fā)展,捷通華聲將聯(lián)合清華大學(xué)科研力量,更加專(zhuān)注智能語(yǔ)音等HCI技術(shù)研究與產(chǎn)業(yè)化應用,堅持秉承“合作共贏(yíng)”的理念,不斷為產(chǎn)業(yè)界提供最先進(jìn)的智能語(yǔ)音交互技術(shù)。