• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 國內 >
     首頁(yè) > 資訊 > 國內 >

    朗深:智能電話(huà)機器人的語(yǔ)義解析

    2022-04-13 09:25:47   作者:   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      一、語(yǔ)義解析架構及流程
      快遞領(lǐng)域的特點(diǎn)是問(wèn)題通常是為一些重復性的服務(wù)請求,比如退貨,查快遞,下單,查運費等,實(shí)現的是一個(gè)非常特定的目標,客戶(hù)只能同智能語(yǔ)音機器人聊設定好的固定主題,其可能的輸入和輸出是有限的,只需盡可能有效地完成具體的任務(wù)即可。這類(lèi)對話(huà)系統從整體架構上可分為兩層:
      1)意圖識別層:識別語(yǔ)言的真實(shí)意圖,將意圖進(jìn)行分類(lèi)并進(jìn)行意圖屬性抽取。意圖決定了后續的領(lǐng)域識別流程,因此意圖層是一個(gè)結合上下文數據模型與領(lǐng)域數據模型并不斷對意圖進(jìn)行明確和推理的過(guò)程。
      2)問(wèn)答匹配層:對問(wèn)題進(jìn)行匹配識別及生成答案的過(guò)程。在對話(huà)體系中可按照業(yè)務(wù)場(chǎng)景進(jìn)行不同典型問(wèn)題類(lèi)型的劃分,并且依據不同類(lèi)型采用不同的匹配流程和方法。
      領(lǐng)域意圖識別一般只要識別用戶(hù)語(yǔ)義所指的類(lèi)別,行動(dòng)類(lèi)意圖則是在一個(gè)領(lǐng)域內的操作類(lèi)意圖,電話(huà)呼叫場(chǎng)景下意圖識別任務(wù)有著(zhù)以下難點(diǎn):
      1)數據量匱乏:一般情況下,一個(gè)新的領(lǐng)域任務(wù)都會(huì )面臨冷啟動(dòng)的問(wèn)題,相應的意圖識別也面臨著(zhù)缺少足夠訓練語(yǔ)料甚至無(wú)訓練數據的問(wèn)題,因此更多真實(shí)情況下,意圖識別一開(kāi)始都是小數據建模問(wèn)題。
      2)語(yǔ)音識別錯誤傳遞:很多情況下,意圖識別的對象并不是準確的文本,一方面可能是用戶(hù)拼寫(xiě)錯誤,另一方面可能是由于語(yǔ)音識別的誤差。
      3)短文本意圖不明顯:真實(shí)口語(yǔ)交流中,用戶(hù)的表述一般屬于短句,很多情況下單句并不具備足夠的信息判斷其意圖,給意圖識別模型增加了困難。
      針對以上主要問(wèn)題,一般從以下幾點(diǎn)考慮:
      1)針對數據量匱乏的問(wèn)題,一方面可以借鑒遷移學(xué)習策略,利用現有的大量文本數據或者己有的其他領(lǐng)域任務(wù)輔助當前的新任務(wù),一種簡(jiǎn)單的遷移學(xué)習方法即是使用預訓練詞向量或語(yǔ)言模型結合簡(jiǎn)單深度神經(jīng)網(wǎng)絡(luò )模型對數據建模。另一方面,針對無(wú)訓練樣本或極少訓練樣本的新意圖,一開(kāi)始可以結合模板匹配或基于手工特征的傳統機器學(xué)習方法做粗糙的意圖識別,這種策略具有精準率高,召回不足的特點(diǎn),可以再冷啟動(dòng)階段快速構建意圖識別系統,同時(shí)可以在小數據集模型擬合能力不足的情況下進(jìn)行快速干預。基于小數據量搭建起基本系統,通過(guò)不斷獲取真實(shí)語(yǔ)料,返回來(lái)再迭代模型,優(yōu)化模型。
      2)語(yǔ)音轉寫(xiě)誤差傳遞的問(wèn)題在電話(huà)呼叫系統中更為突出,語(yǔ)音識別系統往往不能達到100%的轉寫(xiě)準確率,因此,模型要對包含噪聲的文本有相應的容錯能力。通過(guò)實(shí)際樣本分析可以發(fā)現,一般用戶(hù)的拼寫(xiě)或者語(yǔ)音轉寫(xiě)錯誤的字往往是正確文本的同音字。因此,引入字(當拼寫(xiě)錯誤時(shí),分詞系統往往無(wú)法準確分詞)和拼音特征可以很大程度上緩解拼寫(xiě)錯誤和轉寫(xiě)錯誤的問(wèn)題。
      3)針對短文本意圖不明的情況,一般將上下文信息考慮到意圖識別的過(guò)程當中。而考慮上下文一般有兩種方式,第一種是將歷史信息直接加入到模型當中對當前文本意圖進(jìn)行判斷,另一種方式則是直接根據當前領(lǐng)域、前一狀態(tài)通過(guò)規則判斷當前文本意圖。一個(gè)靈活并且泛化能力較強的意圖識別模塊往往結合了多種方法,如上所述,這里,意圖識別采用規則模板以及深度模型相結合的方法,其中規則模板的思路方法較為簡(jiǎn)單和傳統。
      根據快遞業(yè)務(wù)場(chǎng)景特點(diǎn),語(yǔ)義解析分為了意圖識別和智能問(wèn)答兩個(gè)子問(wèn)題。因此設計了基于文本分類(lèi)的意圖識別模型,以及基于深度語(yǔ)義匹配的智能問(wèn)答模型。
      1.提取用戶(hù)語(yǔ)音識別轉寫(xiě)后的文本首先通過(guò)數據預處理單元,進(jìn)行文本去噪(過(guò)濾語(yǔ)音轉寫(xiě)生成的語(yǔ)氣詞等)、分詞、分字、提取拼音。
      2.預處理后的文本進(jìn)入語(yǔ)義解析單元,進(jìn)行通用意圖識別,該部分依次進(jìn)行模板匹配和通用意圖識別模型,若成功識別為某一通用意圖,則返回意圖ID,否則進(jìn)入步驟3.
      3.3進(jìn)入業(yè)務(wù)意圖識別,該部分同樣依次進(jìn)行模板匹配和通用意圖識別模型,如果成功識別為某一通用意圖,則返回意圖ID,否則進(jìn)入步驟4。
      4.進(jìn)入智能問(wèn)答進(jìn)行語(yǔ)義匹配,如果成功匹配到標準問(wèn)題,則返回問(wèn)題ID,否則返回無(wú)意圖。
      二、意圖識別
      模型輸入為文本,輸出為該文本所屬不同意圖的概率。本文將意圖識別模型抽象為三層,包括:嵌入層、編碼層、輸出層。嵌入層主要功能為生成詞表示;編碼層以詞表示為輸入,完成對句子進(jìn)行編碼,輸出句子向量;輸出層將句子向量進(jìn)一步變換,計算損失函數,最終通過(guò)反向傳播算法更新網(wǎng)絡(luò )參數。
      三、智能問(wèn)答
      智能問(wèn)答的語(yǔ)義匹配模型的基本架構如圖20所示。模型共分為輸入編碼層、交互層以及融合層:輸入編碼層使用雙向LSTM分別對兩個(gè)輸入詞嵌入做序列編碼,以捕獲更豐富的語(yǔ)義信息,該部分詞嵌入也可以采用字符、拼音粒度的表示;交互層首先計算輸入編碼層表示的Attention特征,然后同詞嵌入、輸入編碼層的輸出特征拼接。拼接特征通過(guò)雙向LSTM編碼,進(jìn)一步捕獲帶有相關(guān)信息的句子編碼,作為下一層的輸入;融合層對淺層和深層信息進(jìn)行融合,并對最終相似度得分進(jìn)行預測。
    http://www.ounistar.com/

    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 土默特左旗| 文化| 尼勒克县| 兴宁市| 武邑县| 上饶县| 连州市| 靖西县| 都江堰市| 噶尔县| 商洛市| 潼关县| 迭部县| 景宁| 民丰县| 沧州市| 黄浦区| 昌吉市| 红河县| 新蔡县| 虎林市| 会同县| 黑河市| 耒阳市| 嘉荫县| 雅江县| 凌源市| 察哈| 阜城县| 抚州市| 普安县| 藁城市| 开封县| 莫力| 秀山| 阿克苏市| 盘山县| 肥东县| 白城市| 云和县| 甘孜| http://444 http://444 http://444 http://444 http://444 http://444