語言的多模態(tài)應(yīng)用已成為人們生活中習以為常的現(xiàn)象，一句簡單的語音控制、一次短暫的智能客服答疑……這些都是 AI 語音交互技術(shù)應(yīng)用為人們生活帶來的便利，與此同時，其社會價值與意義也在被重新估判......

　　有 “溫度”的聲音

　　語音技術(shù)主要分為語音合成（Speech Synthesis，或者 Text to Speech）、語音識別（Speech Recognition，或者 Speech to Text）、自然語言處理。其中，語音合成技術(shù)發(fā)展最早，且應(yīng)用已較為普遍。

　　“說”是人機交互無法忽視的環(huán)節(jié)，語音合成的重要性日益凸顯。

　　語音合成技術(shù)旨在通過將文字轉(zhuǎn)化為語音，讓機器“開口說話”使得機器變得有“溫度”，實現(xiàn)趨于完美的人機交互。

　　從早期的機械化語音合成開始發(fā)展至今，語音合成的應(yīng)用場景經(jīng)歷了較大的轉(zhuǎn)變。過去語音合成應(yīng)用主要用于簡單的文本播報，場景相對單調(diào)，現(xiàn)其應(yīng)用場景更復雜更多樣，智能助手、智能機器人、文字閱讀等諸多領(lǐng)域都能見到語音合成技術(shù)的身影。

　　如在有聲閱讀方面，用戶需求越來越個性化；

　　機場、車站廣播等服務(wù)業(yè)，甜美溫柔的音質(zhì)可以拉進與乘客間的距離，讓乘客在繁忙的旅途中感受到溫暖；

　　人們在聽新聞時，往往期望播音員具有一個渾厚、穩(wěn)重的聲音；

　　服務(wù)業(yè)客服場景下，人們傾向于聲音更加熱情、親切。

　　如何讓合成的聲音聽起來自然并富有情感，是語音合成領(lǐng)域的一個主要發(fā)展方向。

　　增強語音交互真實感

　　傳統(tǒng)的語音合成技術(shù)，選音拼接和參數(shù)合成兩條路線長期并存。前者音頻、語速真實，但合成效果不穩(wěn)定，甚至聽不懂，而后者合成內(nèi)容效果基本穩(wěn)定，但音質(zhì)機感濃重，音色損失大，語速不流暢。

　　為了提升合成語音自然度、流暢度，研究者們創(chuàng)立了全新的波形生成和序列到序列路線，直接以因果預(yù)測的思路逐個生成音頻樣點，追求完全還原，填補了參數(shù)合成與波形拼接在音質(zhì)方面的鴻溝。同時，傳統(tǒng)的參數(shù)合成需要另建一個專用的時長模型來預(yù)測每字的長度，存在嚴重的機器感。由于端到端路線的發(fā)展，Transformer架構(gòu)的Tacotron系統(tǒng)通過直接建立文本序列到音頻幀序列的映射模型，克服了一字一頓的頑疾。Tacotron-Wavenet填補了參數(shù)合成與拼接合成的鴻溝，加大了語音柔順度的提升，完勝傳統(tǒng)參數(shù)合成和各種拼接合成。

　　捷通華聲所研發(fā)的靈云語音合成技術(shù)應(yīng)用最新的深度學習技術(shù)，通過引用“全并行架構(gòu)聲學模型”將轉(zhuǎn)化速度、韻律預(yù)測效果以及聲學模型訓練效果進行提升，將合成語音的音質(zhì)與自然度提升到與人類接近的水平。

　　目前，靈云語音合成技術(shù)支持中、英、日、韓、維、藏等多種語言，男聲、女聲、童聲、卡通聲等多種音色，具備熱情、甜美、嚴厲等多種風格，為營銷、導航、新聞、閱讀等領(lǐng)域提供服務(wù)支持。

　　聲音定制，真正的“人情味兒”

　　捷通華聲還可根據(jù)用戶需求，通過錄制和制作語音合成定制音庫，在極短時間內(nèi)定制出各式各樣的高度仿真的人工智能聲音，效果自然且逼真。

　　實際上，在AI行業(yè)或者用戶群體中，AI語音定制的能力始終被報以高度期待，利用AI模擬人聲，不僅可以注入記憶、陪伴等社會情感因素，還可借助用戶熟悉的聲音觸發(fā)更多的應(yīng)用想象。靈云語音技術(shù)可將制作一個高品質(zhì)聲音所需的訓練時間極大降低，讓AI語音定制不再需耗費過多時間和資源，以更平常方式“飛入尋常百姓家”。

　　語音合成技術(shù)的快速發(fā)展，機器合成語音越發(fā)自然生動，富有情感表現(xiàn)力。捷通華聲作為深耕語音合成領(lǐng)域多年的企業(yè)，在一次次升級和迭代中，滿足不同場景下越來越多的用戶需求，已廣泛服務(wù)于金融、電信、能源、交通、教育、司法、公安、醫(yī)療、互聯(lián)網(wǎng)等多個領(lǐng)域。

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

捷通華聲靈云語音合成技術(shù)：讓人機交互更有“溫度”

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)