• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    構建下一代ASR:語(yǔ)音情感識別應用程序

    2021-09-09 09:29:29   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      CTI論壇(ctiforum.com)(編譯/老秦):在2021年冬季出版的《語(yǔ)音技術(shù)》(Speech Technology)中,我討論了語(yǔ)音情感識別(SER)的潛在使用案例及其增強客戶(hù)體驗的能力(“語(yǔ)音情感識別:用戶(hù)體驗的下一步”)。現在,讓我們繼續討論SER的挑戰,以及如何構建下一代SER應用程序。
      真實(shí)語(yǔ)音情感數據集的可用性有限
      作為一個(gè)領(lǐng)域,SER已有20多年的歷史,但與自動(dòng)語(yǔ)音識別(ASR)相比,SER相對較新。今天,由于人工智能在該領(lǐng)域的應用,ASR已經(jīng)真正起飛。另一方面,SER的速度較慢,因為與ASR不同,用于訓練AI模型的數據相當有限。
      傳統的SER數據集要么是作用的,要么是誘導的。表演數據集是由付費演員用特定的情感說(shuō)出固定的短語(yǔ)創(chuàng )建的。誘導數據集比這些稍有改進(jìn),通過(guò)讓演講者觀(guān)看特定的片段或讓他們想象特定的情況,可以引發(fā)某些情緒。這些數據集是稀疏的,我們今天所設想的那種SER用例需要在交互式對話(huà)中進(jìn)行自動(dòng)情感檢測;在這些數據集上訓練的人工智能模型在現實(shí)世界中不會(huì )很好地工作。在預定義/有限情緒的語(yǔ)音片段上訓練和測試的SER系統將無(wú)法在實(shí)際使用中處理自發(fā)語(yǔ)音。
      請注意,約束條件不是真實(shí)世界充滿(mǎn)情感的語(yǔ)音的可用性,而是對數據進(jìn)行注釋/標記以創(chuàng )建標準化數據集。與其他類(lèi)型的數據(例如圖像)相比,標記語(yǔ)音的情感內容可能更加主觀(guān)。這就引出了下一個(gè)問(wèn)題:語(yǔ)音情感建模。
      情感建模是復雜的
      語(yǔ)音情感建模,即如何表達嵌入語(yǔ)音中的情感,既復雜又關(guān)鍵。傳統的方法之一是將語(yǔ)音情感建模為憤怒、不信任、恐懼、快樂(lè )、悲傷或中性的主要類(lèi)別之一。與基于離散類(lèi)別的方法相比,機器學(xué)習更傾向于基于維度的方法。在前者中,使用了語(yǔ)音的聲學(xué)特征,包括語(yǔ)言和非語(yǔ)言。可以使用聲音(光譜信息、能量)、韻律(語(yǔ)調、強度、節奏)等技術(shù)特征的組合來(lái)訓練SER模型。
      非語(yǔ)言發(fā)聲,如笑、嘆氣、呼吸和猶豫/暫停,包含用于情緒檢測的有用信號。我們還需要考慮非情緒性條件,這些條件與聲音聽(tīng)起來(lái)如何有關(guān),例如疲勞、感冒、飲酒或其他物質(zhì)。面向消費者的SER應用必須處理多種語(yǔ)言、跨文化語(yǔ)音模式、遠場(chǎng)聲學(xué)、說(shuō)話(huà)人識別、群體動(dòng)力學(xué)、語(yǔ)音轉換等問(wèn)題。
      盡管我們在這里討論的是SER,但任何其他非語(yǔ)音線(xiàn)索(如視覺(jué)信息)也可以作為模型的輸入。例如,在某些場(chǎng)景中,音頻和視頻內容都可能可用。語(yǔ)音文本本身可以使用自然語(yǔ)言處理(NLP)進(jìn)行分析。除了字面上的解釋?zhuān)琋LP有可能幫助發(fā)現諷刺或幽默。
      所有這些都表明了擁有高質(zhì)量數據的重要性。數據集的豐富性將決定SER的性能。機器學(xué)習技術(shù)在這里扮演著(zhù)重要角色:
    • 半監督學(xué)習技術(shù)可用于標記數據。在這里,人類(lèi)研究人員標記一小部分數據,并讓算法標記語(yǔ)料庫的其余部分。
    • 這種方法的一個(gè)擴展是主動(dòng)學(xué)習,在這種學(xué)習中,有一個(gè)人在循環(huán)中,以提高自動(dòng)標簽的質(zhì)量。在主動(dòng)學(xué)習中,如果算法對其數據分類(lèi)的可信度較低,它會(huì )將語(yǔ)音數據路由到人工注釋器。
    • 合成語(yǔ)音數據可使用少量真實(shí)語(yǔ)音生成,可使用生成對抗網(wǎng)絡(luò )(GAN)等技術(shù)使其接近真實(shí)語(yǔ)音質(zhì)量。
    • 轉移學(xué)習是指將知識從一個(gè)環(huán)境應用到另一個(gè)環(huán)境,可能是有用的。示例包括利用成人情緒模型進(jìn)行兒童情緒識別訓練,或使用非語(yǔ)音音頻(如音樂(lè ))訓練SER模型。
      總之,語(yǔ)音情感識別是一個(gè)復雜的領(lǐng)域,包括語(yǔ)言和非語(yǔ)言、上下文甚至視覺(jué)的許多活動(dòng)部分。機器學(xué)習和人工協(xié)助將在下一代SER應用中發(fā)揮重要作用。
      聲明:版權所有 非合作媒體謝絕轉載
      作者:Kashyap Kompella
      原文網(wǎng)址:
      https://www.speechtechmag.com/Articles/Columns/Interact/Building-the-Next-Generation-of-ASR-Speech-Emotion-Recognition-Apps-148837.aspx
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 五原县| 江西省| 日照市| 青神县| 朝阳市| 镇平县| 河北省| 和平县| 贵港市| 建始县| 绥滨县| 肃南| 玉山县| 锦州市| 科技| 宁津县| 五指山市| 蓬莱市| 揭西县| 深州市| 龙里县| 怀宁县| 安塞县| 南投市| 翼城县| 凌源市| 连山| 雷州市| 泉州市| 金堂县| 宜都市| 长宁区| 隆尧县| 凤庆县| 安庆市| 师宗县| 乌鲁木齐县| 宜黄县| 克什克腾旗| 深圳市| 津市市| http://444 http://444 http://444 http://444 http://444 http://444