CTI論壇(ctiforum.com) （編譯/老秦）：在經(jīng)歷了 2020 年的不安之后，2021 年應(yīng)該代表著一場(chǎng)重置。但隨著大流行頑固地與我們同在，這一年最終表明，COVID-19 給整個(gè)經(jīng)濟(jì)和社會(huì)帶來(lái)的許多變化很可能會(huì)成為永久性的。顯然，語(yǔ)音技術(shù)可以發(fā)揮重要作用。由于支持這些應(yīng)用程序的語(yǔ)音開(kāi)發(fā)平臺(tái)和引擎的穩(wěn)步發(fā)展，配備對(duì)話式 AI 的智能虛擬助手將繼續(xù)變得更好，并承擔(dān)更多的客戶服務(wù)負(fù)擔(dān)。更高的聯(lián)絡(luò)中心數(shù)量和更多的語(yǔ)音技術(shù)用例，包括在醫(yī)療保健和金融領(lǐng)域，確保了對(duì)分析的穩(wěn)定需求，以幫助解碼客戶情緒。這些和其他語(yǔ)音技術(shù)的進(jìn)步確保了未來(lái)，雖然不可預(yù)測(cè)，但也將保持令人興奮。如需詳細(xì)了解語(yǔ)音行業(yè)的貢獻(xiàn)，請(qǐng)閱讀以下主題。

語(yǔ)音引擎的現(xiàn)狀
語(yǔ)音開(kāi)發(fā)平臺(tái)現(xiàn)狀
語(yǔ)音分析的狀態(tài)
智能虛擬助手的現(xiàn)狀
語(yǔ)音生物識(shí)別的現(xiàn)狀
輔助技術(shù)現(xiàn)狀
人工智能的現(xiàn)狀

　　語(yǔ)音引擎的現(xiàn)狀
　　去年是語(yǔ)音引擎技術(shù)旋風(fēng)般的一年。該行業(yè)見(jiàn)證了大量創(chuàng)新和市場(chǎng)增長(zhǎng)。然而，障礙仍然存在，包括持續(xù)的 COVID-19 大流行和可能導(dǎo)致用戶沮喪的技術(shù)限制。

　　"迄今為止，語(yǔ)音技術(shù)引擎的主要主題是創(chuàng)新，"Khoros 首席技術(shù)官 Sejal Amin 說(shuō)。 "在過(guò)去的十年里，語(yǔ)音技術(shù)領(lǐng)域已經(jīng)出現(xiàn)了許多新的社交媒體平臺(tái)，人工智能和自然語(yǔ)言處理等先進(jìn)技術(shù)能力增加了它的多功能性和規(guī)模。"

　　ETS AI Research Labs 的研究工程師 Rutuja Ubale 表示，谷歌、亞馬遜、IBM 和微軟繼續(xù)在該領(lǐng)域占據(jù)主導(dǎo)地位，并繼續(xù)改進(jìn)其用于語(yǔ)音轉(zhuǎn)文本、自動(dòng)語(yǔ)音識(shí)別 (ASR)、文本轉(zhuǎn)- 用于聊天機(jī)器人、翻譯等的語(yǔ)音 (TTS)、對(duì)話管理和自然語(yǔ)言理解 (NLU)。

　　"這些 APIs 越來(lái)越多地被多家公司，尤其是處于早期開(kāi)發(fā)階段的初創(chuàng)公司用于設(shè)計(jì)基于語(yǔ)音的應(yīng)用程序，以在他們沒(méi)有資源構(gòu)建內(nèi)部技術(shù)的情況下滿足不同的用戶需求，"Ubale 指出。

　　Verint 語(yǔ)音和文本分析副總裁 Daniel Ziv 表示，由于 Alexa 和 Siri 等語(yǔ)音界面的出現(xiàn)，消費(fèi)者已經(jīng)習(xí)慣將語(yǔ)音作為一種自然界面，因此語(yǔ)音引擎的發(fā)展正在加速。

　　"世界上一些最大的公司以及初創(chuàng)企業(yè)社區(qū)都在對(duì)語(yǔ)音引擎技術(shù)和數(shù)據(jù)收集進(jìn)行投資，以幫助調(diào)整和優(yōu)化這些引擎。這是一個(gè)炙手可熱的市場(chǎng)，創(chuàng)新迅速增長(zhǎng)，圍繞語(yǔ)音、數(shù)據(jù)、情感和意圖打造了新的用例，"Ziv 說(shuō)。

　　移動(dòng)應(yīng)用程序中的語(yǔ)音助手似乎是目前最熱門(mén)的趨勢(shì)--一種幾乎滲透到每個(gè)人日常生活中的力量。

　　"遠(yuǎn)場(chǎng) ASR 擴(kuò)展了智能電視和智能顯示器的語(yǔ)音助手功能，"Ubale 說(shuō)。 "我也對(duì)將語(yǔ)音能力擴(kuò)展到教育和醫(yī)療保健領(lǐng)域感到特別興奮。"

　　2021 年語(yǔ)音的其他發(fā)展包括貨幣化、語(yǔ)音購(gòu)物和新的語(yǔ)音設(shè)備。

　　"我們已經(jīng)看到語(yǔ)音助手跨行業(yè)擴(kuò)展，越來(lái)越多的公司意識(shí)到語(yǔ)音人工智能技術(shù)的好處，并為他們的客戶尋求全渠道體驗(yàn)。品牌也開(kāi)始考慮語(yǔ)音助手的重要方面，例如道德、性別、口音和文化偏見(jiàn)，"SoundHound 首席運(yùn)營(yíng)官 Michael Zagorsek 解釋道。

　　Yobe 的聯(lián)合創(chuàng)始人兼首席科學(xué)家 Hamid Nawab 對(duì)語(yǔ)音引擎在語(yǔ)言理解方面取得的進(jìn)步印象特別深刻，在無(wú)噪音環(huán)境中的準(zhǔn)確率超過(guò) 90%。

　　"它們非常有效和強(qiáng)大，這在很大程度上要?dú)w功于自然語(yǔ)言處理方面的工作，"Nawab 說(shuō)。

　　年度回顧

　　去年出現(xiàn)了一些突出的發(fā)展：

微軟收購(gòu)了 Nuance Communications。
Meta (Facebook) 引入了 Generative Spoken Language Model (GSLM)，它可以在沒(méi)有標(biāo)簽或文本的情況下從音頻中學(xué)習(xí)語(yǔ)音表示，讓語(yǔ)音技術(shù)對(duì)語(yǔ)言更具包容性，提高使用稀有語(yǔ)言的能力，并捕捉語(yǔ)音中的細(xì)微差別。
Meta AI 還發(fā)布了一個(gè)大型開(kāi)源數(shù)據(jù)集 Multilingual LibriSpeech，其中包含 50，000 小時(shí)的八種語(yǔ)言語(yǔ)音數(shù)據(jù)，可用于訓(xùn)練獨(dú)立或組合的 ASR 模型。
Apple 為簡(jiǎn)單的導(dǎo)航任務(wù)推出了適用于 Siri 的設(shè)備上語(yǔ)音識(shí)別。
谷歌啟動(dòng)項(xiàng)目LaMDA（對(duì)話應(yīng)用語(yǔ)言模型）。
新數(shù)據(jù)被添加到任何人都可以用來(lái)訓(xùn)練語(yǔ)音應(yīng)用程序的通用語(yǔ)音數(shù)據(jù)集中。
發(fā)布了 wav2vec2 的多語(yǔ)言版本，稱為 XLSR（跨語(yǔ)言語(yǔ)音表示），可使用 128 種語(yǔ)言進(jìn)行訓(xùn)練。
Vosk API 發(fā)布了適用于 20 種語(yǔ)言的輕量級(jí) ASR 模型，這些模型與其 API 兼容，可用于實(shí)時(shí)語(yǔ)音識(shí)別。

　　毫不奇怪，該行業(yè)已準(zhǔn)備好快速增長(zhǎng)。 IDC 預(yù)測(cè)，全球?qū)υ捠饺斯ぶ悄苘浖袌?chǎng)將從 2020 年的 22 億美元增長(zhǎng)到 2025 年的 79 億美元，年復(fù)合增長(zhǎng)率為 28.8%。

　　"該市場(chǎng)的增長(zhǎng)繼續(xù)受到會(huì)話 AI、語(yǔ)音到文本、文本到語(yǔ)音、機(jī)器翻譯和獨(dú)立自然語(yǔ)言處理 (NLP) 軟件的增長(zhǎng)的推動(dòng)，這些軟件用于創(chuàng)建會(huì)話 AI 解決方案并為其他類型的企業(yè)軟件提供對(duì)話功能，"Ziv 說(shuō)。

　　還要考慮一下，TTS 市場(chǎng)預(yù)計(jì)將從 2020 年的 19.4 億美元增加到 2028 年的 56.1 億美元。

　　在對(duì)話式AI 領(lǐng)域，許多人對(duì)端到端口語(yǔ)理解 (SLU) 系統(tǒng)的開(kāi)發(fā)感到興奮。

　　"雖然以前的努力旨在消除對(duì) ASR 的需求，并直接從原始語(yǔ)音轉(zhuǎn)向意圖和插槽識(shí)別，但新的努力旨在整合對(duì)話歷史以提高對(duì)人機(jī)對(duì)話的理解，"Ubale 說(shuō)。 "雖然有幾家公司已經(jīng)在致力于在設(shè)備上部署 ASR，但亞馬遜最近關(guān)于融合 ASR 和設(shè)備上 SLU 的自然語(yǔ)言理解的研究也令人興奮。"

　　Amin 認(rèn)為，隨著公司推進(jìn)對(duì)話式客戶服務(wù)，多語(yǔ)言模式的采用增加是最重要的進(jìn)步。

　　"轉(zhuǎn)向多語(yǔ)言語(yǔ)音助手可以提高可訪問(wèn)性和品牌影響力，從而可以接觸到新的和以前可能無(wú)法進(jìn)入的市場(chǎng)的受眾�？蛻舾鼉A向于忠于了解其人口統(tǒng)計(jì)數(shù)據(jù)的品牌，" Amin 說(shuō)。

　　去年另一個(gè)值得注意的發(fā)展是將核心序列建模擴(kuò)展到其他領(lǐng)域。

　　"研究人員表明，當(dāng)前語(yǔ)言模型背后的技術(shù)可用于解決廣泛的強(qiáng)化學(xué)習(xí)問(wèn)題，"Nextiva 首席技術(shù)官 Phil Steitz 解釋說(shuō)。 "我們還看到了跨多個(gè) AI/機(jī)器學(xué)習(xí)領(lǐng)域的可訪問(wèn)性和易于實(shí)施的重大進(jìn)步。開(kāi)源框架、模型和組件顯著降低了團(tuán)隊(duì)實(shí)施當(dāng)代 AI 解決方案的門(mén)檻。"

　　有效過(guò)濾背景噪音和了解嘈雜環(huán)境中的用戶仍然是該領(lǐng)域的主要困難。

　　"噪音會(huì)擾亂麥克風(fēng)拾取的語(yǔ)音模式。消除噪音的能力可以為在各種環(huán)境中與語(yǔ)音助手進(jìn)行交互打開(kāi)大門(mén)，例如汽車(chē)、街道或背景噪音較多的區(qū)域，"Zagorsek 說(shuō)。

　　Nawab 將此稱為"雞尾酒會(huì)問(wèn)題"。

　　"盡管具有強(qiáng)大的自然語(yǔ)言理解能力，但機(jī)器學(xué)習(xí)尚未能夠解決這個(gè)問(wèn)題，尤其是對(duì)于嘈雜的現(xiàn)實(shí)世界環(huán)境。這是語(yǔ)音轉(zhuǎn)文本、對(duì)話式人工智能平臺(tái)和語(yǔ)音助手的瓶頸，"他說(shuō)。

　　Elektrobit 用戶體驗(yàn)總監(jiān) J？rg Scherer 表示，集成 AI 技術(shù)已將識(shí)別性能提高到可接受的水平。

　　"然而，對(duì)意圖的清晰理解仍然是一個(gè)挑戰(zhàn)。因此，需要考慮更多與上下文相關(guān)的信息，例如用戶的偏好、位置和對(duì)話歷史，以通過(guò)推理生成語(yǔ)音對(duì)話答案，"Scherer 建議道。

　　管理語(yǔ)音多樣性和控制偏見(jiàn)是另一個(gè)需要注意的粘性小部件。

　　"當(dāng)前的 ASR 模型現(xiàn)在非常擅長(zhǎng)清晰、緩慢的語(yǔ)音，但它們需要更好地識(shí)別不同的方言和專業(yè)詞匯，"Steitz 說(shuō)。

　　另一個(gè)挑戰(zhàn)是在與客戶一起使用品牌 TTS 和真實(shí)的人類體驗(yàn)之間找到平衡，同時(shí)確保每個(gè)客戶群的每條消息都是不同的。

　　然后，人們?cè)絹?lái)越擔(dān)心語(yǔ)音數(shù)據(jù)和隱私。 "組織需要有效地操作語(yǔ)音數(shù)據(jù)，但要在不侵犯用戶和客戶隱私的情況下防止濫用，"Ziv 認(rèn)為。

　　展望未來(lái)

　　盡管面臨挑戰(zhàn)，但預(yù)測(cè)要求未來(lái)令人興奮的發(fā)展。

　　"我預(yù)見(jiàn)到人工智能驅(qū)動(dòng)的語(yǔ)音技術(shù)將越來(lái)越多地被開(kāi)發(fā)用于改善社會(huì)，特別是醫(yī)療保健和教育領(lǐng)域，"Ubale 說(shuō)。 "現(xiàn)在，大多數(shù)現(xiàn)成的功能提供的語(yǔ)音信息非常有限。但在未來(lái)，工程師和科學(xué)家將更多地投資于構(gòu)建基礎(chǔ)能力，以應(yīng)對(duì)試圖學(xué)習(xí)一門(mén)新語(yǔ)言的用戶面臨的特定挑戰(zhàn)，為專業(yè)發(fā)展而重新技能或提升技能，以及克服特定的醫(yī)療需求。"

　　Zagorsek 設(shè)想了四個(gè)創(chuàng)新將強(qiáng)勁的領(lǐng)域：主動(dòng)語(yǔ)音助手、情緒檢測(cè)、擴(kuò)展的多語(yǔ)言和重音語(yǔ)言能力，以及增加的貨幣化。

　　"在不久的將來(lái)，我們將看到語(yǔ)音助手通過(guò)收集有關(guān)上下文和情況的信息，然后主動(dòng)提出有用的建議并采取行動(dòng)來(lái)發(fā)揮積極作用并提供更大的有用性，"Zagorsek 說(shuō)。

　　Amin 預(yù)測(cè)，隨著客戶繼續(xù)尋求人際互動(dòng)，同理心將變得更加重要。 "通過(guò)異步消息傳遞和客戶語(yǔ)音等先進(jìn)技術(shù)，可以更好地滿足客戶的需求并提供白手套體驗(yàn)，從而產(chǎn)生同理心。"

　　Ziv 也同樣熱情。 "我預(yù)見(jiàn)到實(shí)時(shí)語(yǔ)音應(yīng)用程序的興起和持續(xù)發(fā)展勢(shì)頭，例如實(shí)時(shí)座席輔助，"他說(shuō)。 "我還看到了與虛擬現(xiàn)實(shí)和語(yǔ)音交互的沉浸式人機(jī)語(yǔ)音的出現(xiàn)，例如，鍵盤(pán)和通過(guò)手指發(fā)短信消失了。"

　　聲明：版權(quán)所有非合作媒體謝絕轉(zhuǎn)載

　　原文網(wǎng)址：https://www.speechtechmag.com/Articles/Editorial/Features/The-2022-State-of-Speech-Engines-151325.aspx

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

2022年語(yǔ)音技術(shù)行業(yè)現(xiàn)狀之語(yǔ)音引擎

評(píng)論排行

推薦閱讀

專題

大家都在看

CTI論壇會(huì)員企業(yè)