• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    2022年語(yǔ)音技術(shù)行業(yè)現狀之語(yǔ)音引擎

    2022-03-14 09:32:15   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      CTI論壇(ctiforum.com) (編譯/老秦): 在經(jīng)歷了 2020 年的不安之后,2021 年應該代表著(zhù)一場(chǎng)重置。但隨著(zhù)大流行頑固地與我們同在,這一年最終表明,COVID-19 給整個(gè)經(jīng)濟和社會(huì )帶來(lái)的許多變化很可能會(huì )成為永久性的。顯然,語(yǔ)音技術(shù)可以發(fā)揮重要作用。由于支持這些應用程序的語(yǔ)音開(kāi)發(fā)平臺和引擎的穩步發(fā)展,配備對話(huà)式 AI 的智能虛擬助手將繼續變得更好,并承擔更多的客戶(hù)服務(wù)負擔。更高的聯(lián)絡(luò )中心數量和更多的語(yǔ)音技術(shù)用例,包括在醫療保健和金融領(lǐng)域,確保了對分析的穩定需求,以幫助解碼客戶(hù)情緒。這些和其他語(yǔ)音技術(shù)的進(jìn)步確保了未來(lái),雖然不可預測,但也將保持令人興奮。如需詳細了解語(yǔ)音行業(yè)的貢獻,請閱讀以下主題。
    • 語(yǔ)音引擎的現狀
    • 語(yǔ)音開(kāi)發(fā)平臺現狀
    • 語(yǔ)音分析的狀態(tài)
    • 智能虛擬助手的現狀
    • 語(yǔ)音生物識別的現狀
    • 輔助技術(shù)現狀
    • 人工智能的現狀
      語(yǔ)音引擎的現狀
      去年是語(yǔ)音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見(jiàn)證了大量創(chuàng )新和市場(chǎng)增長(cháng)。然而,障礙仍然存在,包括持續的 COVID-19 大流行和可能導致用戶(hù)沮喪的技術(shù)限制。
      "迄今為止,語(yǔ)音技術(shù)引擎的主要主題是創(chuàng )新,"Khoros 首席技術(shù)官 Sejal Amin 說(shuō)。 "在過(guò)去的十年里,語(yǔ)音技術(shù)領(lǐng)域已經(jīng)出現了許多新的社交媒體平臺,人工智能和自然語(yǔ)言處理等先進(jìn)技術(shù)能力增加了它的多功能性和規模。"
      ETS AI Research Labs 的研究工程師 Rutuja Ubale 表示,谷歌、亞馬遜、IBM 和微軟繼續在該領(lǐng)域占據主導地位,并繼續改進(jìn)其用于語(yǔ)音轉文本、自動(dòng)語(yǔ)音識別 (ASR)、文本轉- 用于聊天機器人、翻譯等的語(yǔ)音 (TTS)、對話(huà)管理和自然語(yǔ)言理解 (NLU)。
      "這些 APIs 越來(lái)越多地被多家公司,尤其是處于早期開(kāi)發(fā)階段的初創(chuàng )公司用于設計基于語(yǔ)音的應用程序,以在他們沒(méi)有資源構建內部技術(shù)的情況下滿(mǎn)足不同的用戶(hù)需求,"Ubale 指出。
      Verint 語(yǔ)音和文本分析副總裁 Daniel Ziv 表示,由于 Alexa 和 Siri 等語(yǔ)音界面的出現,消費者已經(jīng)習慣將語(yǔ)音作為一種自然界面,因此語(yǔ)音引擎的發(fā)展正在加速。
      "世界上一些最大的公司以及初創(chuàng )企業(yè)社區都在對語(yǔ)音引擎技術(shù)和數據收集進(jìn)行投資,以幫助調整和優(yōu)化這些引擎。這是一個(gè)炙手可熱的市場(chǎng),創(chuàng )新迅速增長(cháng),圍繞語(yǔ)音、數據、情感和意圖打造了新的用例,"Ziv 說(shuō)。
      移動(dòng)應用程序中的語(yǔ)音助手似乎是目前最熱門(mén)的趨勢--一種幾乎滲透到每個(gè)人日常生活中的力量。
      "遠場(chǎng) ASR 擴展了智能電視和智能顯示器的語(yǔ)音助手功能,"Ubale 說(shuō)。 "我也對將語(yǔ)音能力擴展到教育和醫療保健領(lǐng)域感到特別興奮。"
      2021 年語(yǔ)音的其他發(fā)展包括貨幣化、語(yǔ)音購物和新的語(yǔ)音設備。
      "我們已經(jīng)看到語(yǔ)音助手跨行業(yè)擴展,越來(lái)越多的公司意識到語(yǔ)音人工智能技術(shù)的好處,并為他們的客戶(hù)尋求全渠道體驗。品牌也開(kāi)始考慮語(yǔ)音助手的重要方面,例如道德、性別、口音和文化偏見(jiàn),"SoundHound 首席運營(yíng)官 Michael Zagorsek 解釋道。
      Yobe 的聯(lián)合創(chuàng )始人兼首席科學(xué)家 Hamid Nawab 對語(yǔ)音引擎在語(yǔ)言理解方面取得的進(jìn)步印象特別深刻,在無(wú)噪音環(huán)境中的準確率超過(guò) 90%。
      "它們非常有效和強大,這在很大程度上要歸功于自然語(yǔ)言處理方面的工作,"Nawab 說(shuō)。
      年度回顧
      去年出現了一些突出的發(fā)展:
    • 微軟收購了 Nuance Communications。
    •  Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM),它可以在沒(méi)有標簽或文本的情況下從音頻中學(xué)習語(yǔ)音表示,讓語(yǔ)音技術(shù)對語(yǔ)言更具包容性,提高使用稀有語(yǔ)言的能力,并捕捉語(yǔ)音中的細微差別。
    •  Meta AI 還發(fā)布了一個(gè)大型開(kāi)源數據集 Multilingual LibriSpeech,其中包含 50,000 小時(shí)的八種語(yǔ)言語(yǔ)音數據,可用于訓練獨立或組合的 ASR 模型。
    •  Apple 為簡(jiǎn)單的導航任務(wù)推出了適用于 Siri 的設備上語(yǔ)音識別。
    •  谷歌啟動(dòng)項目LaMDA(對話(huà)應用語(yǔ)言模型)。
    •  新數據被添加到任何人都可以用來(lái)訓練語(yǔ)音應用程序的通用語(yǔ)音數據集中。
    •  發(fā)布了 wav2vec2 的多語(yǔ)言版本,稱(chēng)為 XLSR(跨語(yǔ)言語(yǔ)音表示),可使用 128 種語(yǔ)言進(jìn)行訓練。
    •  Vosk API 發(fā)布了適用于 20 種語(yǔ)言的輕量級 ASR 模型,這些模型與其 API 兼容,可用于實(shí)時(shí)語(yǔ)音識別。
      毫不奇怪,該行業(yè)已準備好快速增長(cháng)。 IDC 預測,全球對話(huà)式人工智能軟件市場(chǎng)將從 2020 年的 22 億美元增長(cháng)到 2025 年的 79 億美元,年復合增長(cháng)率為 28.8%。
      "該市場(chǎng)的增長(cháng)繼續受到會(huì )話(huà) AI、語(yǔ)音到文本、文本到語(yǔ)音、機器翻譯和獨立自然語(yǔ)言處理 (NLP) 軟件的增長(cháng)的推動(dòng),這些軟件用于創(chuàng )建會(huì )話(huà) AI 解決方案并為其他類(lèi)型的企業(yè)軟件提供對話(huà)功能,"Ziv 說(shuō)。
      還要考慮一下,TTS 市場(chǎng)預計將從 2020 年的 19.4 億美元增加到 2028 年的 56.1 億美元。
      在對話(huà)式AI 領(lǐng)域,許多人對端到端口語(yǔ)理解 (SLU) 系統的開(kāi)發(fā)感到興奮。
      "雖然以前的努力旨在消除對 ASR 的需求,并直接從原始語(yǔ)音轉向意圖和插槽識別,但新的努力旨在整合對話(huà)歷史以提高對人機對話(huà)的理解,"Ubale 說(shuō)。 "雖然有幾家公司已經(jīng)在致力于在設備上部署 ASR,但亞馬遜最近關(guān)于融合 ASR 和設備上 SLU 的自然語(yǔ)言理解的研究也令人興奮。"
      Amin 認為,隨著(zhù)公司推進(jìn)對話(huà)式客戶(hù)服務(wù),多語(yǔ)言模式的采用增加是最重要的進(jìn)步。
      "轉向多語(yǔ)言語(yǔ)音助手可以提高可訪(fǎng)問(wèn)性和品牌影響力,從而可以接觸到新的和以前可能無(wú)法進(jìn)入的市場(chǎng)的受眾。客戶(hù)更傾向于忠于了解其人口統計數據的品牌," Amin 說(shuō)。
      去年另一個(gè)值得注意的發(fā)展是將核心序列建模擴展到其他領(lǐng)域。
      "研究人員表明,當前語(yǔ)言模型背后的技術(shù)可用于解決廣泛的強化學(xué)習問(wèn)題,"Nextiva 首席技術(shù)官 Phil Steitz 解釋說(shuō)。 "我們還看到了跨多個(gè) AI/機器學(xué)習領(lǐng)域的可訪(fǎng)問(wèn)性和易于實(shí)施的重大進(jìn)步。開(kāi)源框架、模型和組件顯著(zhù)降低了團隊實(shí)施當代 AI 解決方案的門(mén)檻。"
      有效過(guò)濾背景噪音和了解嘈雜環(huán)境中的用戶(hù)仍然是該領(lǐng)域的主要困難。
      "噪音會(huì )擾亂麥克風(fēng)拾取的語(yǔ)音模式。消除噪音的能力可以為在各種環(huán)境中與語(yǔ)音助手進(jìn)行交互打開(kāi)大門(mén),例如汽車(chē)、街道或背景噪音較多的區域,"Zagorsek 說(shuō)。
      Nawab 將此稱(chēng)為"雞尾酒會(huì )問(wèn)題"。
      "盡管具有強大的自然語(yǔ)言理解能力,但機器學(xué)習尚未能夠解決這個(gè)問(wèn)題,尤其是對于嘈雜的現實(shí)世界環(huán)境。這是語(yǔ)音轉文本、對話(huà)式人工智能平臺和語(yǔ)音助手的瓶頸,"他說(shuō)。
      Elektrobit 用戶(hù)體驗總監 J?rg Scherer 表示,集成 AI 技術(shù)已將識別性能提高到可接受的水平。
      "然而,對意圖的清晰理解仍然是一個(gè)挑戰。因此,需要考慮更多與上下文相關(guān)的信息,例如用戶(hù)的偏好、位置和對話(huà)歷史,以通過(guò)推理生成語(yǔ)音對話(huà)答案,"Scherer 建議道。
      管理語(yǔ)音多樣性和控制偏見(jiàn)是另一個(gè)需要注意的粘性小部件。
      "當前的 ASR 模型現在非常擅長(cháng)清晰、緩慢的語(yǔ)音,但它們需要更好地識別不同的方言和專(zhuān)業(yè)詞匯,"Steitz 說(shuō)。
      另一個(gè)挑戰是在與客戶(hù)一起使用品牌 TTS 和真實(shí)的人類(lèi)體驗之間找到平衡,同時(shí)確保每個(gè)客戶(hù)群的每條消息都是不同的。
      然后,人們越來(lái)越擔心語(yǔ)音數據和隱私。 "組織需要有效地操作語(yǔ)音數據,但要在不侵犯用戶(hù)和客戶(hù)隱私的情況下防止濫用,"Ziv 認為。
      展望未來(lái)
      盡管面臨挑戰,但預測要求未來(lái)令人興奮的發(fā)展。
      "我預見(jiàn)到人工智能驅動(dòng)的語(yǔ)音技術(shù)將越來(lái)越多地被開(kāi)發(fā)用于改善社會(huì ),特別是醫療保健和教育領(lǐng)域,"Ubale 說(shuō)。 "現在,大多數現成的功能提供的語(yǔ)音信息非常有限。但在未來(lái),工程師和科學(xué)家將更多地投資于構建基礎能力,以應對試圖學(xué)習一門(mén)新語(yǔ)言的用戶(hù)面臨的特定挑戰,為專(zhuān)業(yè)發(fā)展而重新技能或提升技能,以及克服特定的醫療需求。"
      Zagorsek 設想了四個(gè)創(chuàng )新將強勁的領(lǐng)域:主動(dòng)語(yǔ)音助手、情緒檢測、擴展的多語(yǔ)言和重音語(yǔ)言能力,以及增加的貨幣化。
      "在不久的將來(lái),我們將看到語(yǔ)音助手通過(guò)收集有關(guān)上下文和情況的信息,然后主動(dòng)提出有用的建議并采取行動(dòng)來(lái)發(fā)揮積極作用并提供更大的有用性,"Zagorsek 說(shuō)。
      Amin 預測,隨著(zhù)客戶(hù)繼續尋求人際互動(dòng),同理心將變得更加重要。 "通過(guò)異步消息傳遞和客戶(hù)語(yǔ)音等先進(jìn)技術(shù),可以更好地滿(mǎn)足客戶(hù)的需求并提供白手套體驗,從而產(chǎn)生同理心。"
      Ziv 也同樣熱情。 "我預見(jiàn)到實(shí)時(shí)語(yǔ)音應用程序的興起和持續發(fā)展勢頭,例如實(shí)時(shí)座席輔助,"他說(shuō)。 "我還看到了與虛擬現實(shí)和語(yǔ)音交互的沉浸式人機語(yǔ)音的出現,例如,鍵盤(pán)和通過(guò)手指發(fā)短信消失了。"
      聲明:版權所有 非合作媒體謝絕轉載
      原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 叙永县| 海口市| 芒康县| 大冶市| 海晏县| 长治县| 嘉荫县| 阿荣旗| 龙海市| 右玉县| 龙胜| 库车县| 孝感市| 盖州市| 福建省| 汤原县| 陇西县| 铜鼓县| 昭苏县| 玉山县| 泾川县| 启东市| 若尔盖县| 茌平县| 城步| 光泽县| 铜梁县| 和静县| 丹凤县| 玛曲县| 衡南县| 蕉岭县| 玉林市| 屏山县| 綦江县| 额尔古纳市| 青田县| 类乌齐县| 丁青县| 方城县| 拜泉县| http://444 http://444 http://444 http://444 http://444 http://444