• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    捷通華聲靈云語(yǔ)音合成技術(shù):讓人機交互更有“溫度”

    2021-12-03 09:30:08   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      語(yǔ)言的多模態(tài)應用已成為人們生活中習以為常的現象,一句簡(jiǎn)單的語(yǔ)音控制、一次短暫的智能客服答疑……這些都是 AI 語(yǔ)音交互技術(shù)應用為人們生活帶來(lái)的便利,與此同時(shí),其社會(huì )價(jià)值與意義也在被重新估判......
      有 “溫度”的聲音
      語(yǔ)音技術(shù)主要分為語(yǔ)音合成(Speech Synthesis, 或者 Text to Speech)、語(yǔ)音識別(Speech Recognition, 或者 Speech to Text)、自然語(yǔ)言處理。其中,語(yǔ)音合成技術(shù)發(fā)展最早,且應用已較為普遍。
      “說(shuō)”是人機交互無(wú)法忽視的環(huán)節,語(yǔ)音合成的重要性日益凸顯。
      語(yǔ)音合成技術(shù)旨在通過(guò)將文字轉化為語(yǔ)音,讓機器“開(kāi)口說(shuō)話(huà)”使得機器變得有“溫度”,實(shí)現趨于完美的人機交互。
      從早期的機械化語(yǔ)音合成開(kāi)始發(fā)展至今,語(yǔ)音合成的應用場(chǎng)景經(jīng)歷了較大的轉變。過(guò)去語(yǔ)音合成應用主要用于簡(jiǎn)單的文本播報,場(chǎng)景相對單調,現其應用場(chǎng)景更復雜更多樣,智能助手、智能機器人、文字閱讀等諸多領(lǐng)域都能見(jiàn)到語(yǔ)音合成技術(shù)的身影。
      如在有聲閱讀方面,用戶(hù)需求越來(lái)越個(gè)性化;
      機場(chǎng)、車(chē)站廣播等服務(wù)業(yè),甜美溫柔的音質(zhì)可以拉進(jìn)與乘客間的距離,讓乘客在繁忙的旅途中感受到溫暖;
      人們在聽(tīng)新聞時(shí),往往期望播音員具有一個(gè)渾厚、穩重的聲音;
      服務(wù)業(yè)客服場(chǎng)景下,人們傾向于聲音更加熱情、親切。
      如何讓合成的聲音聽(tīng)起來(lái)自然并富有情感,是語(yǔ)音合成領(lǐng)域的一個(gè)主要發(fā)展方向。
      增強語(yǔ)音交互真實(shí)感
      傳統的語(yǔ)音合成技術(shù),選音拼接和參數合成兩條路線(xiàn)長(cháng)期并存。前者音頻、語(yǔ)速真實(shí),但合成效果不穩定,甚至聽(tīng)不懂,而后者合成內容效果基本穩定,但音質(zhì)機感濃重,音色損失大,語(yǔ)速不流暢。
      為了提升合成語(yǔ)音自然度、流暢度,研究者們創(chuàng )立了全新的波形生成和序列到序列路線(xiàn),直接以因果預測的思路逐個(gè)生成音頻樣點(diǎn),追求完全還原,填補了參數合成與波形拼接在音質(zhì)方面的鴻溝。同時(shí),傳統的參數合成需要另建一個(gè)專(zhuān)用的時(shí)長(cháng)模型來(lái)預測每字的長(cháng)度,存在嚴重的機器感。由于端到端路線(xiàn)的發(fā)展,Transformer架構的Tacotron系統通過(guò)直接建立文本序列到音頻幀序列的映射模型,克服了一字一頓的頑疾。Tacotron-Wavenet填補了參數合成與拼接合成的鴻溝,加大了語(yǔ)音柔順度的提升,完勝傳統參數合成和各種拼接合成。
      捷通華聲所研發(fā)的靈云語(yǔ)音合成技術(shù)應用最新的深度學(xué)習技術(shù),通過(guò)引用“全并行架構聲學(xué)模型”將轉化速度、韻律預測效果以及聲學(xué)模型訓練效果進(jìn)行提升,將合成語(yǔ)音的音質(zhì)與自然度提升到與人類(lèi)接近的水平。
      目前,靈云語(yǔ)音合成技術(shù)支持中、英、日、韓、維、藏等多種語(yǔ)言,男聲、女聲、童聲、卡通聲等多種音色,具備熱情、甜美、嚴厲等多種風(fēng)格,為營(yíng)銷(xiāo)、導航、新聞、閱讀等領(lǐng)域提供服務(wù)支持。
      聲音定制,真正的“人情味兒”
      捷通華聲還可根據用戶(hù)需求,通過(guò)錄制和制作語(yǔ)音合成定制音庫,在極短時(shí)間內定制出各式各樣的高度仿真的人工智能聲音,效果自然且逼真。
      實(shí)際上,在A(yíng)I行業(yè)或者用戶(hù)群體中,AI語(yǔ)音定制的能力始終被報以高度期待,利用AI模擬人聲,不僅可以注入記憶、陪伴等社會(huì )情感因素,還可借助用戶(hù)熟悉的聲音觸發(fā)更多的應用想象。靈云語(yǔ)音技術(shù)可將制作一個(gè)高品質(zhì)聲音所需的訓練時(shí)間極大降低,讓AI語(yǔ)音定制不再需耗費過(guò)多時(shí)間和資源,以更平常方式“飛入尋常百姓家”。
      語(yǔ)音合成技術(shù)的快速發(fā)展,機器合成語(yǔ)音越發(fā)自然生動(dòng),富有情感表現力。捷通華聲作為深耕語(yǔ)音合成領(lǐng)域多年的企業(yè),在一次次升級和迭代中,滿(mǎn)足不同場(chǎng)景下越來(lái)越多的用戶(hù)需求,已廣泛服務(wù)于金融、電信、能源、交通、教育、司法、公安、醫療、互聯(lián)網(wǎng)等多個(gè)領(lǐng)域。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 阜新| 江达县| 阳谷县| 靖远县| 大田县| 广东省| 房产| 广灵县| 文昌市| 丹凤县| 铁岭县| 霍邱县| 德清县| 德州市| 和平县| 北流市| 建瓯市| 萝北县| 邢台县| 渝中区| 北海市| 明溪县| 澄城县| 莱州市| 安国市| 芒康县| 河曲县| 新化县| 大丰市| 乐昌市| 隆子县| 屏南县| 雷州市| 哈巴河县| 全州县| 凉山| 鞍山市| 旌德县| 余姚市| 芮城县| 和田县| http://444 http://444 http://444 http://444 http://444 http://444