• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 新聞 > 文章精選 >
     首頁(yè) > 新聞 > 文章精選 >

    從數據預處理到排序算法,全面解讀Uber智能客服COTA

    2018-01-25 14:20:03   作者:   來(lái)源:雷鋒網(wǎng)AI研習社   評論:0  點(diǎn)擊:


      日前,Uber官網(wǎng)上的一篇文章詳細介紹了基于NLP和機器學(xué)習構建的COTA客服系統。利用該系統,Uber可以快速高效地解決90%以上的客服問(wèn)題,雷鋒網(wǎng)AI研習社將原文編譯整理如下:
    從數據預處理到排序算法,全方位解讀Uber人工智能客服COTA
      為了打造最佳用戶(hù)體驗,Uber持續優(yōu)化客戶(hù)支持流程,讓客戶(hù)支持服務(wù)更易用,更方便。
      為實(shí)現這一目標,Uber Customer Obsession團隊基于其內部平臺,提供5種不同客服渠道(應用內置客戶(hù)支持、官網(wǎng)客戶(hù)支持、本地司機網(wǎng)、電話(huà)客服、線(xiàn)下服務(wù)網(wǎng)點(diǎn))。這個(gè)內部平臺具備客服工單功能,以便跟蹤解決問(wèn)題。每天提交到這個(gè)平臺上的客服工單有數十萬(wàn)條,遍布全球400多個(gè)城市。Customer Obsession團隊必須確保客服代表能盡可能準確、快速地解決問(wèn)題。
      基于此,Uber打造了一個(gè)人工智能客服助理平臺——COTA(Customer Obsession Ticket Assistant),它利用機器學(xué)習和自然語(yǔ)言處理(NLP)技術(shù),幫助客服代表提供更好的客戶(hù)支持服務(wù)。
      在Uber客戶(hù)支持平臺上,利用Michelangelo平臺的機器學(xué)習服務(wù),COTA可以快速高效地解決90%以上的客服問(wèn)題。
      下面,我們會(huì )詳細介紹創(chuàng )造COTA的動(dòng)機,COTA后端架構,并展示如何利用這一強大工具提高客戶(hù)滿(mǎn)意度。
      沒(méi)有COTA之前的客戶(hù)支持
      當客戶(hù)聯(lián)系Uber尋求支持時(shí),我們必須及時(shí)為他們提供最好的解決方案。
      我們可以讓用戶(hù)在提交問(wèn)題報告時(shí),點(diǎn)選問(wèn)題所屬的類(lèi)別,填寫(xiě)細節。這一過(guò)程為客服提供了很多背景信息,從而能更快解決問(wèn)題,如圖1所示:
    從數據預處理到排序算法,全方位解讀Uber人工智能客服COTA
    圖1:Uber內置的客戶(hù)支持服務(wù)為用戶(hù)提供了一個(gè)直觀(guān)且易于使用的界面,先提供問(wèn)題可能的類(lèi)型,然后突出顯示行程的細節
      Uber內置的客戶(hù)支持服務(wù)能反映問(wèn)題的背景信息,雖然這些信息很重要,但要解決客戶(hù)的問(wèn)題,單靠這些信息遠遠不夠,特別是在一個(gè)問(wèn)題有多種工單答案的情況下。此外,同一個(gè)問(wèn)題,客戶(hù)可以通過(guò)多種方式來(lái)描述,因此問(wèn)題的解決過(guò)程更為復雜。
      隨著(zhù)Uber的服務(wù)規模不斷擴大,客服必須應對不斷增長(cháng)的客戶(hù)支持問(wèn)題,同時(shí),問(wèn)題也變得更為多樣化,包括技術(shù)故障和費用調整等。事實(shí)上,當客服在解決客戶(hù)提交的問(wèn)題時(shí),他們首先要做的是從數千個(gè)類(lèi)別中,確定問(wèn)題所屬類(lèi)型,這絕非易事!
      縮短識別問(wèn)題類(lèi)型的時(shí)間非常重要,它能減少客服解決用戶(hù)問(wèn)題的總時(shí)間。
      確定問(wèn)題類(lèi)型后,下一步就是給出正確的解決方案,每種類(lèi)型的工單都有不同協(xié)議和解決方法。此外,還要從成千上萬(wàn)個(gè)可能的解決方案中進(jìn)行選擇,這也是一個(gè)耗時(shí)的過(guò)程。
      COTA:客戶(hù)工單助手
      基于前面的背景,我們設計COTA來(lái)幫助客服提高解決問(wèn)題的速度和準確性,從而改善客戶(hù)體驗。
      COTA利用Michelangelo平臺來(lái)簡(jiǎn)化、加速和標準化客服工單流程。目前,COTA由一組向客服推薦解決方案的模型組成,只支持英文工單,我們正試圖建立可以處理西班牙語(yǔ)和葡萄牙語(yǔ)客服工單的模型。
      基于我們的支持平臺,根據客服工單內容和行程上下文信息,Michelangelo模型提供三種最可能的問(wèn)題類(lèi)型及其解決方案,處理流程如下:
    從數據預處理到排序算法,全方位解讀Uber人工智能客服COTA
    圖2:COTA系統的七步工作流程
      如圖2所示,COTA系統包括如下7步:
      1.客服工單進(jìn)入客戶(hù)支持平臺(CSP),后端服務(wù)系統采集工單的相關(guān)特征;
      2.后端服務(wù)系統將這些特征發(fā)送到Michelangelo機器學(xué)習模型;
      3.模型預測每個(gè)可能的解決方案的得分;
      4.后端服務(wù)系統接收預測方案和分數,并將其保存到Schemaless數據庫中;
      5.客服打開(kāi)客服工單后,前端服務(wù)系統將觸發(fā)后端服務(wù)系統,以檢查客服工單內容是否有更新。如果沒(méi)有更新,后端服務(wù)系統將檢索保存于數據庫中的解決方案;如果工單有更新,它將抓取更新后的特征,并再次執行步驟2-4.
      6.后端服務(wù)系統將解決方案按分數高低排列,然后返回至前端服務(wù)系統;
      7.將排名前三的解決方案推薦給客服;至此,客服只需做出選擇,就可以解決工單。
      COTA的表現非常優(yōu)秀:根據客戶(hù)服務(wù)調查結果顯示,COTA可以將工單解決時(shí)間縮短10%以上,同時(shí)還可以達到之前用人工處理的客戶(hù)滿(mǎn)意度,甚至比之前人工處理的滿(mǎn)意度更高。
      COTA中的機器學(xué)習模型為客服提供了更快和更準確的工單解決方案,使Uber客戶(hù)支持服務(wù)更加完美。
      基于NLP和機器學(xué)習構建COTA
      表面上看,COTA只需收集工單問(wèn)題的上下文信息,并返回可能的解決方案,但幕后還有很多事情要做。COTA后臺負責完成兩項任務(wù):確定工單所屬類(lèi)型并確定最合理的解決方案。
      為了實(shí)現這一點(diǎn),機器學(xué)習模型需要從客戶(hù)提交的文本消息中提取特征、行程信息和客戶(hù)提交問(wèn)題時(shí)所選的類(lèi)別。
      當模型生成特征分數時(shí),最有價(jià)值的特征是用戶(hù)發(fā)送的問(wèn)題的文本消息。由于用戶(hù)發(fā)送的文本消息對于理解問(wèn)題很重要,我們建立了一個(gè)NLP「管道」,能將多種不同語(yǔ)言的文本轉換為對機器學(xué)習模型有用的特征。
      NLP模型可以翻譯和解釋不同的文本元素,包括音韻、詞性、語(yǔ)法、句法和語(yǔ)義。根據模型的構造單元,NLP可以建立字符級、單詞級、短語(yǔ)級和句子/文檔級的語(yǔ)言識別模型。
      傳統的NLP模型是基于人類(lèi)語(yǔ)言學(xué)專(zhuān)業(yè)知識來(lái)提取文本信息的特征,隨著(zhù)端到端訓練的深度學(xué)習模式興起,研究人員開(kāi)始開(kāi)發(fā)能夠解析整個(gè)文本塊的模型,這時(shí)候不必明確地解析一個(gè)句子中不同單詞之間的關(guān)系,而是直接使用原始文本。
      在COTA中,我們首先構建一個(gè)單詞級別的NLP模型,以更好地理解文本消息的語(yǔ)義。自然語(yǔ)言處理中一個(gè)流行的方法是主題建模,通過(guò)單詞的計數統計信息來(lái)理解句子的主題。雖然主題建模沒(méi)有考慮到字詞的順序,但是對于諸如信息檢索和文檔分類(lèi)等任務(wù),已經(jīng)被證明非常有用。
    從數據預處理到排序算法,全方位解讀Uber人工智能客服COTA
    圖3:為識別工單問(wèn)題類(lèi)型和選擇解決方案,我們建立的NLP「管道」模型由三個(gè)不同的步驟組成:預處理,特征工程和基于點(diǎn)的排序算法。
      在COTA中,我們使用基于主題建模的NLP「管道」模型處理文本消息,信息處理流程如圖3所示。
      預處理
    • 為了清洗文本,我們首先刪除文本中的HTML標簽。
    • 接下來(lái),我們分割工單消息中的句子,并刪除停頓用詞。
    • 然后再進(jìn)行詞形化,將單詞從不同的時(shí)態(tài)、派生形式進(jìn)行還原。
    • 最后,我們將文檔轉換成單詞集合,并建立這些單詞的字典。
      主題建模
      為了理解用戶(hù)意圖,預處理之后我們對單詞包進(jìn)行主題建模。
      具體而言,我們使用詞頻-逆向文件頻率(TF-IDF)的統計方法和潛在語(yǔ)義分析算法(LSA)來(lái)提取主題。
      圖4(a)中展示了主題建模中的一些可能的主題類(lèi)型:
    從數據預處理到排序算法,全方位解讀Uber人工智能客服COTA
    圖4(a)主題建模:我們使用TF-IDF和LSA從文本數據中提取主題
      (b)特征工程:將所有工單解決方案和工單問(wèn)題映射到主題向量空間,計算解決方案和工單之間的余弦相似度
      特征工程
      主題建模使我們能夠直接使用主題向量作為特征,下游的分類(lèi)器能將其作為識別問(wèn)題類(lèi)型和選擇解決方案的依據。
      然而,這種方法太直接,會(huì )受到主題向量稀疏性的影響。為了有意義地表達這些主題,我們需要使用數百甚至數千維度的主題向量,而主題向量的之間的相關(guān)性接近于零。由于特征空間的維度非常高,需要處理大量的數據,因此訓練這些模型變得相當困難。
      考慮到這些因素,我們決定以間接方式進(jìn)行主題建模:通過(guò)計算余弦相似度特征來(lái)執行下一步的特征工程,如圖4(b)所示。以選擇工單解決方案為例,我們收集每個(gè)工單解決方案對應的歷史工單,并形成這一工單解決方案對應的詞匯集。
      在這種情況下,主題建模轉換是基于歷史工單的詞匯集表示。我們用向量Ti表示工單解決方案i,對所有工單解決方案都進(jìn)行這種轉換。我們可以將任何新的工單映射到工單解決方案的主題向量空間T1,T2...Tm,其中m是可能使用的工單解決方案的總數。接下來(lái)形成工單j的矢量tj。可以計算出Ti和tj之間余弦相似度得分sij,就可以知道工單解決方案i和工單j之間的相似度,從而將特征空間從數百或數千個(gè)維度減少到很低維度。
      基于點(diǎn)的排序算法
      接下來(lái)解釋機器學(xué)習算法是如何選擇工單解決方案的。
      為了設計這個(gè)算法,我們將余弦相似度特征與其他工單信息、行程特征進(jìn)行組合。每種工單類(lèi)型有超過(guò)1,000種可能的工單解決方案,COTA的超大的解空間使區分這些工單解決方案之間的細微差異變得很困難。
      為了給客服提供最佳的工單解決方案,我們應用了學(xué)習排序(learning-to-rank)算法,并構建了基于檢索的點(diǎn)排序算法。
      具體而言,我們將工單解決方案和工單之間的正確匹配標記為正(1),從工單解決方案與工單不匹配的集合中,我們隨機抽樣形成子集,并標記為負(0)。使用余弦相似度以及工單、行程特征,我們可以建立一個(gè)二分法分類(lèi)器,接下來(lái)利用隨機森林算法來(lái)判斷工單解決方案與工單是否匹配。利用算法對可能的匹配進(jìn)行評分,我們可以對評分進(jìn)行排名,并給出排名最高的三個(gè)解決方案。
      下圖比較了使用主題向量作為特征的傳統多類(lèi)分類(lèi)算法與使用工程余弦相似特征的逐點(diǎn)排序算法的性能:
    從數據預處理到排序算法,全方位解讀Uber人工智能客服COTA
    圖5:基于點(diǎn)的排序算法比多類(lèi)分類(lèi)算法的準確度高25%
      可以看到,使用余弦相似度作為特征的,基于點(diǎn)的排序算法優(yōu)于直接使用主題向量的多類(lèi)分類(lèi)算法,精度提高了25%。
      比較是在相同的數據集上,使用相同類(lèi)型的算法(隨機森林)進(jìn)行的,且模型的超參數相同。排序框架中使用余弦相似度作為特征可以獲得很好的效果。
      更便捷更快的工單處理=更好的客戶(hù)支持
      COTA性能優(yōu)異,只有應用到實(shí)際場(chǎng)景中才有意義。為了衡量COTA對客戶(hù)支持體驗的影響,我們對多個(gè)在線(xiàn)英語(yǔ)工單進(jìn)行了受控的A/B對比實(shí)驗。在這些實(shí)驗中,我們選擇了幾千名客服,將他們隨機分配到對照組和實(shí)驗組。對照組中的客服代表使用原來(lái)的工作流程,而實(shí)驗組中的客服代表使用COTA助理,交互界面包含問(wèn)題類(lèi)型和建議的工單解決方案。我們收集了兩個(gè)組的工單處理結果,并測量了一些關(guān)鍵指標,包括模型準確性、平均處理時(shí)間和客戶(hù)滿(mǎn)意度得分。
      測試進(jìn)行如下:
      我們首先測量了模型的在線(xiàn)表現,并將其與離線(xiàn)表現進(jìn)行了比較。我們發(fā)現模型性能從離線(xiàn)到在線(xiàn)都是一致的。
      然后,我們測量了客戶(hù)滿(mǎn)意度分數,并比較了對照組和實(shí)驗組。總的來(lái)說(shuō),實(shí)驗組的客戶(hù)滿(mǎn)意度提高了幾個(gè)百分點(diǎn)。這一發(fā)現表明,COTA可以提供相同或略高于人工的客戶(hù)服務(wù)質(zhì)量。
      最后,為了確定COTA對工單處理速度的影響,我們比較了對照組和實(shí)驗組的平均工單處理時(shí)間。平均而言,COTA將工單處理時(shí)間縮短了大約10%。
      通過(guò)提高客服的績(jì)效和縮短工單解決時(shí)間,COTA幫助CustomerObsession團隊更好地服務(wù)于用戶(hù),從而提高客戶(hù)滿(mǎn)意度。COTA加速了工單處理過(guò)程,每年可以為Uber節省數千萬(wàn)美元。
      下一代COTA中的深度學(xué)習
      COTA的成功使我們更堅定地持續優(yōu)化機器學(xué)習算法,以提高系統準確性,并為客服和終端用戶(hù)提供更好的體驗。
      深度學(xué)習框架可以在文本分類(lèi)、匯總,機器翻譯和許多輔助NLP任務(wù)(句法和語(yǔ)義分析,文本蘊含,命名實(shí)體識別和鏈接)中使用。
      與深度學(xué)習相關(guān)的實(shí)驗
      在UberAI實(shí)驗室的研究人員的支持下,我們嘗試將深度學(xué)習應用于下一代COTA。我們基于卷積神經(jīng)網(wǎng)絡(luò )(CNN),遞歸神經(jīng)網(wǎng)絡(luò )(RNN)以及這兩者的幾種不同組合,實(shí)現了多種體系結構,包括分層結構和基于注意力的體系結構。
      使用深度學(xué)習框架,我們能夠以多任務(wù)學(xué)習的方式來(lái)訓練我們的模型,使用單一模型既能夠識別問(wèn)題類(lèi)型,又能提出最佳工單解決方案。由于問(wèn)題類(lèi)型被組織成層次結構,我們可以訓練模型來(lái)預測問(wèn)題在層次結構中的位置,在這其中使用波束搜索的循環(huán)解碼器(類(lèi)似于序列模型的解碼組件),可以進(jìn)行更精確的預測。
      超參數優(yōu)化選擇最佳模型
      為了確定最佳的深度學(xué)習架構,我們針對所有類(lèi)型的架構進(jìn)行了大規模超參數優(yōu)化,并在GPU集群上進(jìn)行了并行訓練。最后的結果表明,最精確的體系結構既適用于CNN也適用于RNN,但為了我們的研究目的,我們決定尋求一種更簡(jiǎn)單的CNN體系結構,該體系結構精準度稍有欠缺,但在訓練和推斷時(shí)間上更具優(yōu)勢。我們最后設計的模型精度比原始隨機森林模型高10%。
      在下圖中,我們展示了工單集的數據覆蓋率(模型正在處理的工單百分比,x軸)和準確度(y軸)之間的關(guān)系。如下所示,隨著(zhù)數據覆蓋率的降低,兩種模型都變得更加精確,但是我們的深度學(xué)習模型在相同的數據覆蓋率上表現出更高的準確性,在相同準確度下表現出更高的數據覆蓋率。
      從數據預處理到排序算法,全方位解讀Uber人工智能客服COTA
    圖6:深度學(xué)習模型和經(jīng)典模型(隨機森林)性能比較
      我們目前正與UberMichelangelo團隊緊密合作,處于將這個(gè)深度學(xué)習模型產(chǎn)品化的最后階段。
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    專(zhuān)題

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 平度市| 叶城县| 奎屯市| 黎平县| 鱼台县| 顺平县| 阳山县| 黔东| 临朐县| 东兰县| 安新县| 邮箱| 林口县| 九江市| 横峰县| 离岛区| 沿河| 金沙县| 浦县| 武义县| 枣阳市| 松原市| 木里| 双牌县| 磐石市| 嘉黎县| 明水县| 綦江县| 汤原县| 政和县| 大冶市| 固原市| 德清县| 东阿县| 青川县| 沅陵县| 沂南县| 金溪县| 中牟县| 定南县| 马边| http://444 http://444 http://444 http://444 http://444 http://444