今天，壹鴿科技為大家?guī)淼腁I技術(shù)小貼士為“垂直應(yīng)用場景下歷史對話數(shù)據(jù)的采集及分析”。

　　構(gòu)建人機對話系統(tǒng)過程主要包括分析定義、知識編纂、系統(tǒng)搭建、構(gòu)造應(yīng)用及積累迭代幾個階段。

　　其中，知識編纂和系統(tǒng)搭建之間是交替進行的，基于已編纂的知識先搭建模型查看其效果，再反過來補充知識。另外，當模型搭建好之后，會進入積累迭代的過程，該過程可長時間持續(xù)收集用戶數(shù)據(jù)，根據(jù)數(shù)據(jù)進行某種動畫的或人工輔助的標注，從而產(chǎn)生數(shù)據(jù)回流到知識編纂階段，進一步豐富語料、模板、詞典等，這是對話系統(tǒng)構(gòu)建流程中規(guī)模較大的產(chǎn)品持續(xù)迭代階段，如下圖所示：

圖：人機對話系統(tǒng)的構(gòu)建過程

　　為有效支持產(chǎn)品的持續(xù)迭代，需要人機對話系統(tǒng)滿足兩個要求：

知識庫的構(gòu)建維護，方便管理員內(nèi)部進行知識庫的創(chuàng)建；
流程的可配置，可采?組件化的思路，只需要拖拽出相應(yīng)的功能節(jié)點，完善節(jié)點配置項，即可實現(xiàn)?個復雜的完整對話流程。

　　一、對話數(shù)據(jù)采集

　　垂直領(lǐng)域或者被稱為封閉領(lǐng)域的機器人，是指對話系統(tǒng)的輸入和輸出的空間可能是有限的。這些機器人系統(tǒng)都試圖實現(xiàn)一個非常特定的目標。機器人通過分發(fā)功能模塊（在人機對話過程中初步獲取用戶意圖）對當前會話做判斷與分發(fā)，分配到相應(yīng)的服務(wù)組件中，機器人的對話流如下圖所示：

圖：用戶對話流

　　由上圖易見，一通熱線電話是由多個主節(jié)點及子節(jié)點構(gòu)成。本文中主節(jié)點具有分發(fā)功能，可分為開場白分發(fā)主節(jié)點、非開場白分發(fā)主節(jié)點以及通話結(jié)束主節(jié)點，能夠?qū)斍皩υ捔鞣峙涞较鄳?yīng)的服務(wù)組件中執(zhí)行任務(wù)流程；任務(wù)流程是由多個子節(jié)點構(gòu)成，通過多個輪次的對話來獲取必要的信息以最終得到明確的用戶指令方式。以快遞領(lǐng)域機器人為例，熱線通話標志如下圖所示：

圖：熱線通話標志

　　在上述分析中可知，對話系統(tǒng)主要實現(xiàn)分發(fā)和執(zhí)行任務(wù)，因此采集對話數(shù)據(jù)需要在相應(yīng)的節(jié)點上進行埋點對會話交互數(shù)據(jù)進行標志，如下圖所示：

圖：對話歷史采集埋點示意圖

　　二、對話數(shù)據(jù)分析

　　把特定的對話節(jié)點看作一個問題域，可較好的捕獲用戶說話的習慣和領(lǐng)域用語，某一節(jié)點場景下機器人與客戶的對話可限定在某個問題域內(nèi)進行。利用日志數(shù)據(jù)，學習用戶的語言使用習慣，從日志中自動抽取文本信息并進行結(jié)構(gòu)化存儲，如下圖所示。

圖：節(jié)點數(shù)據(jù)分析示意圖

　　ASR識別后文本是由一個個詞構(gòu)成的詞序列，其中某些詞對于理解整個句子有著非常重要的作用，這就是所說的關(guān)鍵詞。在這一步要做的就是提取出這些關(guān)鍵詞，形成子串，作為下一步“問題理解”的輸入，這種處理同時也是為了降低“問題理解”時的難度，如下圖所示。

圖：子串的問題理解示意圖

　　對句子進行準確的理解，并不需要考慮句子中的每個詞，只需對幾個蘊含關(guān)鍵概念的子串進行理解就能把握句子的意義。詞串識別技術(shù)從語句中抽取用戶關(guān)心的關(guān)鍵信息，能夠降低對識別系統(tǒng)和環(huán)境噪聲的要求。

　　三、分發(fā)主節(jié)點數(shù)據(jù)分析

　　分發(fā)主節(jié)點主要實現(xiàn)分發(fā)功能，將對話分配到問答類數(shù)據(jù)服務(wù)、任務(wù)類數(shù)據(jù)服務(wù)、拒識類數(shù)據(jù)服務(wù)及其他服務(wù)，如下圖所示：

圖：分發(fā)主節(jié)點數(shù)據(jù)服務(wù)類型

　　以快遞物流領(lǐng)域的對話語料為基礎(chǔ)。對話過程是兩個人通過電話以一問一答的形式進行的，電話一端代表客戶，另一端是智能語音客服機器人，客戶端說話方式完全是自由的和隨意的。

　　為了表述方便，我們首先給出如下定義：

　　1、定義1

　　對話語句(Utterance)從對話者一方開始講話到講完停下或被對方強行打斷為止，所說的全部內(nèi)容稱作一個對話語句。

　　2、定義2

　　對話子句(Dialog sentence)一個對話語句中所包含的關(guān)鍵子句，稱作對話子句。

　　3、定義3

　　N-Gram元組(N-Gramtuple)一個對話子句中所包含的N-Gram關(guān)鍵字符串，稱作N-Gram元組。

　　對Utterance進行子句抽取，如下圖所示：

圖：子句抽取流程圖

　　對Sentence依據(jù)數(shù)據(jù)服務(wù)類型進行標注，索引化存儲，如下圖所示：

圖：分發(fā)主節(jié)點數(shù)據(jù)結(jié)構(gòu)化示意圖

　　對一條Utterance抽取Sentence的情況如下圖所示:

圖：Utterance抽取Sentence的分類

　　對于Sentence=[]的Utterance在在線處理時需先通過前置精確匹配模塊將穩(wěn)定識別錯誤類、語氣詞類的Utterance精確指向到相對應(yīng)的服務(wù)去，因此，在線數(shù)據(jù)處理流程如下圖所示：

圖：分發(fā)主節(jié)點數(shù)據(jù)在線處理流程

　　關(guān)于垂直應(yīng)用場景下歷史對話數(shù)據(jù)的采集及分析的介紹就到這了，壹鴿科技后續(xù)將會為大家?guī)砀嘞嚓P(guān)的技術(shù)講解，敬請期待吧！

亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩,日本久久久久,日本-区二区三区免费精品,中文字幕日本亚洲欧美不卡

壹鴿AI技術(shù)小貼士-垂直應(yīng)用場景下歷史對話數(shù)據(jù)的采集及分析

評論排行

推薦閱讀

專題

大家都在看

CTI論壇會員企業(yè)