通過(guò)建立與Google及Google云平臺(GCP)的合作伙伴關(guān)系,Ocado Techonology公司發(fā)布了一種新的方法,用在對Ocado的50多萬(wàn)用戶(hù)及來(lái)自這些用戶(hù)的海量電子郵件請求的處理中。該方法使用了TensorFlow及宿主于GCP上的TensorFlow Python API,重點(diǎn)在于解決電子郵件的自動(dòng)分類(lèi)問(wèn)題。
Ocado認為對于電子郵件分類(lèi)問(wèn)題,非常適合于使用工業(yè)規模的機器學(xué)習和自動(dòng)化,更具體的說(shuō)就是自然語(yǔ)言處理(NLP)。很多的企業(yè)支持中心為讓工作一致和可靠,采用了依靠工作人員手工處理電子郵件隊列的工作流程。在企業(yè)的業(yè)務(wù)迅速成長(cháng)時(shí),或是整體客戶(hù)支持量所需的支持人員日益增長(cháng)時(shí)。這種方法并不能很好地擴展,這會(huì )導致郵件響應的延遲,客戶(hù)不滿(mǎn)意度也隨之增加。
Ocado的做法是將所有的電子郵件匯集到同一處,然后通過(guò)分析郵件內容為郵件打標簽,例如標記為客戶(hù)投訴的則需要立刻反饋,標記為一般性反饋的則具有稍低的優(yōu)先級可稍遲反饋。此外,郵件標簽還包括:重發(fā)貨請求、退款請求、支付問(wèn)題或網(wǎng)站問(wèn)題、新商品查詢(xún)等。
Ocado想要在分配標簽類(lèi)別時(shí),盡可能地減少需用戶(hù)及支持人員手工輸入的域和標簽的數量。因為這種手工輸入不僅容易產(chǎn)生偏差并生成噪聲數據,而且也占用了支持人員的寶貴時(shí)間,這些時(shí)間是本可用于根據客戶(hù)請求的優(yōu)先度服務(wù)于客戶(hù)的。
Ocado科技的高級軟件工程師Marcin Druzkowski今年八月在Datasciencefest大會(huì )上的演講上,給出了Ocado訓練神經(jīng)網(wǎng)絡(luò )所用的各種模型的一些細節。其中的方法包括:使用詞袋的邏輯回歸、使用嵌入(embedding)的卷積神經(jīng)網(wǎng)絡(luò )(CNN)、使用嵌入的長(cháng)短期記憶模型(LSTM)。
Druzkowski指出深度學(xué)習并非一定要使用GPU,考慮到CPU芯片的相對低成本、云計算的可擴展性和并行計算模型訓練,沒(méi)有必要再采用特定的GPU寫(xiě)入和訓練模型。他也指出通過(guò)以軟件工程為中心的數據科學(xué)方法,他們的TensorFlow圖以數據矩陣和圖定義的方式部署,這不同于數據科學(xué)軟件所使用的一般方法,那些方法已被證明在部署和易于集成到生產(chǎn)環(huán)節的實(shí)現上存在著(zhù)挑戰。Druzkowski在演講中提到的特性還包括:可移植性和依賴(lài)性管理、代碼質(zhì)量、測試覆蓋度、版本管理和持續集成。
圍繞著(zhù)測試模型,還出現了其它的一些新挑戰。這些測試模式需給出隨機性、可接受結果值范圍和良好模型性能的組成目標。此外,挑戰也存在于如何在后臺數據集發(fā)生改變時(shí),重新訓練和測試模型。在確定一個(gè)模型是否有價(jià)值時(shí),需額外考慮的變量是數據集改變的比例和速度。當前測試的運行使用了pyTest和TensorFlow,但是Ocado拒絕了提供示例代碼的請求。