CTI論壇(ctiforum.com) (編譯/老秦): 在經(jīng)歷了 2020 年的不安之后,2021 年應該代表著(zhù)一場(chǎng)重置。但隨著(zhù)大流行頑固地與我們同在,這一年最終表明,COVID-19 給整個(gè)經(jīng)濟和社會(huì )帶來(lái)的許多變化很可能會(huì )成為永久性的。顯然,語(yǔ)音技術(shù)可以發(fā)揮重要作用。由于支持這些應用程序的語(yǔ)音開(kāi)發(fā)平臺和引擎的穩步發(fā)展,配備對話(huà)式 AI 的智能虛擬助手將繼續變得更好,并承擔更多的客戶(hù)服務(wù)負擔。更高的聯(lián)絡(luò )中心數量和更多的語(yǔ)音技術(shù)用例,包括在醫療保健和金融領(lǐng)域,確保了對分析的穩定需求,以幫助解碼客戶(hù)情緒。這些和其他語(yǔ)音技術(shù)的進(jìn)步確保了未來(lái),雖然不可預測,但也將保持令人興奮。如需詳細了解語(yǔ)音行業(yè)的貢獻,請閱讀以下主題。
- 語(yǔ)音引擎的現狀
- 語(yǔ)音開(kāi)發(fā)平臺現狀
- 語(yǔ)音分析的狀態(tài)
- 智能虛擬助手的現狀
- 語(yǔ)音生物識別的現狀
- 輔助技術(shù)現狀
- 人工智能的現狀
語(yǔ)音引擎的現狀
去年是語(yǔ)音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見(jiàn)證了大量創(chuàng )新和市場(chǎng)增長(cháng)。然而,障礙仍然存在,包括持續的 COVID-19 大流行和可能導致用戶(hù)沮喪的技術(shù)限制。
去年是語(yǔ)音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見(jiàn)證了大量創(chuàng )新和市場(chǎng)增長(cháng)。然而,障礙仍然存在,包括持續的 COVID-19 大流行和可能導致用戶(hù)沮喪的技術(shù)限制。

"迄今為止,語(yǔ)音技術(shù)引擎的主要主題是創(chuàng )新,"Khoros 首席技術(shù)官 Sejal Amin 說(shuō)。 "在過(guò)去的十年里,語(yǔ)音技術(shù)領(lǐng)域已經(jīng)出現了許多新的社交媒體平臺,人工智能和自然語(yǔ)言處理等先進(jìn)技術(shù)能力增加了它的多功能性和規模。"
ETS AI Research Labs 的研究工程師 Rutuja Ubale 表示,谷歌、亞馬遜、IBM 和微軟繼續在該領(lǐng)域占據主導地位,并繼續改進(jìn)其用于語(yǔ)音轉文本、自動(dòng)語(yǔ)音識別 (ASR)、文本轉- 用于聊天機器人、翻譯等的語(yǔ)音 (TTS)、對話(huà)管理和自然語(yǔ)言理解 (NLU)。
"這些 APIs 越來(lái)越多地被多家公司,尤其是處于早期開(kāi)發(fā)階段的初創(chuàng )公司用于設計基于語(yǔ)音的應用程序,以在他們沒(méi)有資源構建內部技術(shù)的情況下滿(mǎn)足不同的用戶(hù)需求,"Ubale 指出。
Verint 語(yǔ)音和文本分析副總裁 Daniel Ziv 表示,由于 Alexa 和 Siri 等語(yǔ)音界面的出現,消費者已經(jīng)習慣將語(yǔ)音作為一種自然界面,因此語(yǔ)音引擎的發(fā)展正在加速。
"世界上一些最大的公司以及初創(chuàng )企業(yè)社區都在對語(yǔ)音引擎技術(shù)和數據收集進(jìn)行投資,以幫助調整和優(yōu)化這些引擎。這是一個(gè)炙手可熱的市場(chǎng),創(chuàng )新迅速增長(cháng),圍繞語(yǔ)音、數據、情感和意圖打造了新的用例,"Ziv 說(shuō)。
移動(dòng)應用程序中的語(yǔ)音助手似乎是目前最熱門(mén)的趨勢--一種幾乎滲透到每個(gè)人日常生活中的力量。
"遠場(chǎng) ASR 擴展了智能電視和智能顯示器的語(yǔ)音助手功能,"Ubale 說(shuō)。 "我也對將語(yǔ)音能力擴展到教育和醫療保健領(lǐng)域感到特別興奮。"
2021 年語(yǔ)音的其他發(fā)展包括貨幣化、語(yǔ)音購物和新的語(yǔ)音設備。
"我們已經(jīng)看到語(yǔ)音助手跨行業(yè)擴展,越來(lái)越多的公司意識到語(yǔ)音人工智能技術(shù)的好處,并為他們的客戶(hù)尋求全渠道體驗。品牌也開(kāi)始考慮語(yǔ)音助手的重要方面,例如道德、性別、口音和文化偏見(jiàn),"SoundHound 首席運營(yíng)官 Michael Zagorsek 解釋道。
Yobe 的聯(lián)合創(chuàng )始人兼首席科學(xué)家 Hamid Nawab 對語(yǔ)音引擎在語(yǔ)言理解方面取得的進(jìn)步印象特別深刻,在無(wú)噪音環(huán)境中的準確率超過(guò) 90%。
"它們非常有效和強大,這在很大程度上要歸功于自然語(yǔ)言處理方面的工作,"Nawab 說(shuō)。
年度回顧
去年出現了一些突出的發(fā)展:
- 微軟收購了 Nuance Communications。
- Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM),它可以在沒(méi)有標簽或文本的情況下從音頻中學(xué)習語(yǔ)音表示,讓語(yǔ)音技術(shù)對語(yǔ)言更具包容性,提高使用稀有語(yǔ)言的能力,并捕捉語(yǔ)音中的細微差別。
- Meta AI 還發(fā)布了一個(gè)大型開(kāi)源數據集 Multilingual LibriSpeech,其中包含 50,000 小時(shí)的八種語(yǔ)言語(yǔ)音數據,可用于訓練獨立或組合的 ASR 模型。
- Apple 為簡(jiǎn)單的導航任務(wù)推出了適用于 Siri 的設備上語(yǔ)音識別。
- 谷歌啟動(dòng)項目LaMDA(對話(huà)應用語(yǔ)言模型)。
- 新數據被添加到任何人都可以用來(lái)訓練語(yǔ)音應用程序的通用語(yǔ)音數據集中。
- 發(fā)布了 wav2vec2 的多語(yǔ)言版本,稱(chēng)為 XLSR(跨語(yǔ)言語(yǔ)音表示),可使用 128 種語(yǔ)言進(jìn)行訓練。
- Vosk API 發(fā)布了適用于 20 種語(yǔ)言的輕量級 ASR 模型,這些模型與其 API 兼容,可用于實(shí)時(shí)語(yǔ)音識別。
毫不奇怪,該行業(yè)已準備好快速增長(cháng)。 IDC 預測,全球對話(huà)式人工智能軟件市場(chǎng)將從 2020 年的 22 億美元增長(cháng)到 2025 年的 79 億美元,年復合增長(cháng)率為 28.8%。
"該市場(chǎng)的增長(cháng)繼續受到會(huì )話(huà) AI、語(yǔ)音到文本、文本到語(yǔ)音、機器翻譯和獨立自然語(yǔ)言處理 (NLP) 軟件的增長(cháng)的推動(dòng),這些軟件用于創(chuàng )建會(huì )話(huà) AI 解決方案并為其他類(lèi)型的企業(yè)軟件提供對話(huà)功能,"Ziv 說(shuō)。
還要考慮一下,TTS 市場(chǎng)預計將從 2020 年的 19.4 億美元增加到 2028 年的 56.1 億美元。
在對話(huà)式AI 領(lǐng)域,許多人對端到端口語(yǔ)理解 (SLU) 系統的開(kāi)發(fā)感到興奮。
"雖然以前的努力旨在消除對 ASR 的需求,并直接從原始語(yǔ)音轉向意圖和插槽識別,但新的努力旨在整合對話(huà)歷史以提高對人機對話(huà)的理解,"Ubale 說(shuō)。 "雖然有幾家公司已經(jīng)在致力于在設備上部署 ASR,但亞馬遜最近關(guān)于融合 ASR 和設備上 SLU 的自然語(yǔ)言理解的研究也令人興奮。"
Amin 認為,隨著(zhù)公司推進(jìn)對話(huà)式客戶(hù)服務(wù),多語(yǔ)言模式的采用增加是最重要的進(jìn)步。
"轉向多語(yǔ)言語(yǔ)音助手可以提高可訪(fǎng)問(wèn)性和品牌影響力,從而可以接觸到新的和以前可能無(wú)法進(jìn)入的市場(chǎng)的受眾。客戶(hù)更傾向于忠于了解其人口統計數據的品牌," Amin 說(shuō)。
去年另一個(gè)值得注意的發(fā)展是將核心序列建模擴展到其他領(lǐng)域。
"研究人員表明,當前語(yǔ)言模型背后的技術(shù)可用于解決廣泛的強化學(xué)習問(wèn)題,"Nextiva 首席技術(shù)官 Phil Steitz 解釋說(shuō)。 "我們還看到了跨多個(gè) AI/機器學(xué)習領(lǐng)域的可訪(fǎng)問(wèn)性和易于實(shí)施的重大進(jìn)步。開(kāi)源框架、模型和組件顯著(zhù)降低了團隊實(shí)施當代 AI 解決方案的門(mén)檻。"
有效過(guò)濾背景噪音和了解嘈雜環(huán)境中的用戶(hù)仍然是該領(lǐng)域的主要困難。
"噪音會(huì )擾亂麥克風(fēng)拾取的語(yǔ)音模式。消除噪音的能力可以為在各種環(huán)境中與語(yǔ)音助手進(jìn)行交互打開(kāi)大門(mén),例如汽車(chē)、街道或背景噪音較多的區域,"Zagorsek 說(shuō)。
Nawab 將此稱(chēng)為"雞尾酒會(huì )問(wèn)題"。
"盡管具有強大的自然語(yǔ)言理解能力,但機器學(xué)習尚未能夠解決這個(gè)問(wèn)題,尤其是對于嘈雜的現實(shí)世界環(huán)境。這是語(yǔ)音轉文本、對話(huà)式人工智能平臺和語(yǔ)音助手的瓶頸,"他說(shuō)。
Elektrobit 用戶(hù)體驗總監 J?rg Scherer 表示,集成 AI 技術(shù)已將識別性能提高到可接受的水平。
"然而,對意圖的清晰理解仍然是一個(gè)挑戰。因此,需要考慮更多與上下文相關(guān)的信息,例如用戶(hù)的偏好、位置和對話(huà)歷史,以通過(guò)推理生成語(yǔ)音對話(huà)答案,"Scherer 建議道。
管理語(yǔ)音多樣性和控制偏見(jiàn)是另一個(gè)需要注意的粘性小部件。
"當前的 ASR 模型現在非常擅長(cháng)清晰、緩慢的語(yǔ)音,但它們需要更好地識別不同的方言和專(zhuān)業(yè)詞匯,"Steitz 說(shuō)。
另一個(gè)挑戰是在與客戶(hù)一起使用品牌 TTS 和真實(shí)的人類(lèi)體驗之間找到平衡,同時(shí)確保每個(gè)客戶(hù)群的每條消息都是不同的。
然后,人們越來(lái)越擔心語(yǔ)音數據和隱私。 "組織需要有效地操作語(yǔ)音數據,但要在不侵犯用戶(hù)和客戶(hù)隱私的情況下防止濫用,"Ziv 認為。
展望未來(lái)
盡管面臨挑戰,但預測要求未來(lái)令人興奮的發(fā)展。
"我預見(jiàn)到人工智能驅動(dòng)的語(yǔ)音技術(shù)將越來(lái)越多地被開(kāi)發(fā)用于改善社會(huì ),特別是醫療保健和教育領(lǐng)域,"Ubale 說(shuō)。 "現在,大多數現成的功能提供的語(yǔ)音信息非常有限。但在未來(lái),工程師和科學(xué)家將更多地投資于構建基礎能力,以應對試圖學(xué)習一門(mén)新語(yǔ)言的用戶(hù)面臨的特定挑戰,為專(zhuān)業(yè)發(fā)展而重新技能或提升技能,以及克服特定的醫療需求。"
Zagorsek 設想了四個(gè)創(chuàng )新將強勁的領(lǐng)域:主動(dòng)語(yǔ)音助手、情緒檢測、擴展的多語(yǔ)言和重音語(yǔ)言能力,以及增加的貨幣化。
"在不久的將來(lái),我們將看到語(yǔ)音助手通過(guò)收集有關(guān)上下文和情況的信息,然后主動(dòng)提出有用的建議并采取行動(dòng)來(lái)發(fā)揮積極作用并提供更大的有用性,"Zagorsek 說(shuō)。
Amin 預測,隨著(zhù)客戶(hù)繼續尋求人際互動(dòng),同理心將變得更加重要。 "通過(guò)異步消息傳遞和客戶(hù)語(yǔ)音等先進(jìn)技術(shù),可以更好地滿(mǎn)足客戶(hù)的需求并提供白手套體驗,從而產(chǎn)生同理心。"
Ziv 也同樣熱情。 "我預見(jiàn)到實(shí)時(shí)語(yǔ)音應用程序的興起和持續發(fā)展勢頭,例如實(shí)時(shí)座席輔助,"他說(shuō)。 "我還看到了與虛擬現實(shí)和語(yǔ)音交互的沉浸式人機語(yǔ)音的出現,例如,鍵盤(pán)和通過(guò)手指發(fā)短信消失了。"
聲明:版權所有 非合作媒體謝絕轉載
原文網(wǎng)址:https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx