首頁(yè)>>>技術(shù)>>>CRM  CRM產(chǎn)品

數據挖掘工具:誰(shuí)最適合CRM

2007/09/29

  自從我上次斗膽回答“如何選擇數據挖掘工具”之后,已經(jīng)好幾年過(guò)去了。本文主要闡述以下兩個(gè)核心觀(guān)點(diǎn):
  1. 沒(méi)有最好的工具;更確切地說(shuō),沒(méi)有適合所有人的最好的工具。

  2. 最有用的工具,是那些能夠滿(mǎn)足你所需要的絕大多數數據挖掘任務(wù)的工具。
  主要的數據挖掘任務(wù)

  過(guò)去,數據挖掘工具的開(kāi)發(fā)主要側重于提供強大的分析算法上。 但是,分析“引擎”只能完成數據挖掘項目中的一小部分任務(wù)。 大多數數據挖掘人員都明白,數據挖掘項目中70%到90%的工作是做數據準備。 在數據挖掘工具的演進(jìn)過(guò)程中,數據準備功能的開(kāi)發(fā)一直被放在次要位置上。 最后,你要能夠對模型準確評估,才能比較多個(gè)模型,并將它們推薦給市場(chǎng)人員。

  數據準備任務(wù)

  常見(jiàn)的數據準備任務(wù)包括:   大多數數據挖掘工具會(huì )把這些數據挖掘功能放在次要的地位, 本文則會(huì )側重評估常見(jiàn)數據挖掘工具處理這些任務(wù)的能力。

  除了能支持以上的數據準備任務(wù),一個(gè)好的數據挖掘工具還應該包含模型評估的功能,以便比較建模過(guò)程中產(chǎn)生的多個(gè)模型,并用于支持直效營(yíng)銷(xiāo)(direct marketing)。

模型評估工具

  在分析理論中,最好的模型是具有最佳精度的模型,可以準確預測出目標變量的類(lèi)別,同時(shí)在驗證數據集上也能表現穩定。 這就是說(shuō),在預測中我們要考慮響應目標和非響應目標的組合精度。 這種方法稱(chēng)為全局精度方法(Global Accuracy method)。 大多數數據挖掘工具使用這種方法來(lái)確定“最佳”模型。 但是,它也有美中不足。 全局精度評估方法的背后有一個(gè)前提假設,就是各種分類(lèi)錯誤的代價(jià)是相同的。 這種方法在課堂上表現不錯,但在實(shí)際的CRM數據挖掘應用上則可能存在問(wèn)題,特別是在那些用于直郵營(yíng)銷(xiāo)的應用上。 實(shí)際上,這也是過(guò)去很多用CRM來(lái)支持直郵營(yíng)銷(xiāo)而未能產(chǎn)生明顯商業(yè)價(jià)值的一個(gè)主要原因。 對模型的評估有一些主要原則,而其中只有一部分是營(yíng)銷(xiāo)部門(mén)真正關(guān)心的: 最大化目標客戶(hù)的響應率,最小化所需成本。 大多數數據挖掘工具都把注意力集中在預測的組合精度上,卻完全忽略了成本的因素。

  在直效營(yíng)銷(xiāo)活動(dòng)中,向未響應的潛在客戶(hù)(稱(chēng)為“錯誤肯定”錯誤,false-positive)發(fā)送郵件的成本是相當低的;而如果一個(gè)潛在客戶(hù)可能會(huì )響應(稱(chēng)為“錯誤否定”錯誤,false-negative),你卻沒(méi)有向他發(fā)送郵件,那么這個(gè)代價(jià)就相當大了(因為沒(méi)有把他發(fā)展為客戶(hù),您會(huì )損失他所繳納的會(huì )員費,而且他也不可能購買(mǎi)您的其它服務(wù))。 因此在直銷(xiāo)營(yíng)銷(xiāo)模型的評估中,就應該盡量最小化錯誤否定的錯誤,而不是錯誤肯定。 因為營(yíng)銷(xiāo)部門(mén)只關(guān)注響應率和成本,如果前30%的客戶(hù)名單中包含了全體響應者的60%,就可以滿(mǎn)足他們的需求。 對于直銷(xiāo)營(yíng)銷(xiāo)來(lái)說(shuō),盡管前30%的客戶(hù)仍會(huì )有部分人不會(huì )響應(錯誤肯定錯誤),向他們發(fā)送郵件依然是值得的。那是因為我們已經(jīng)聯(lián)系了全體響應者中的60%。 此時(shí)就比隨機發(fā)郵件的有效性提高了一倍,也就更加合算。

  大多數數據挖掘工具都使用全局精度方法來(lái)進(jìn)行模型評估。 它們可能會(huì )要求你使用這種方法,通過(guò)工具的報表功能來(lái)識別出“最佳”模型。 不同算法會(huì )產(chǎn)生多個(gè)模型,我們不應該只是查看工具提供的精度報告,簡(jiǎn)單比較后就判別哪個(gè)是最佳的模型。 實(shí)際上,更合適的評估應該根據如下條件來(lái)做出:按照預測概率值順序排列模型結果,生成評分列表,然后看真正的響應者是否被放在最前面的分段中。 盡管分類(lèi)算法可以輸出分類(lèi)概率, 實(shí)際的類(lèi)別(例如,0或1)還是對分類(lèi)概率的進(jìn)一步歸納(例如,<0.5 = 0; ≥ 0.5 = 1)。 大量真正的“金塊”隱藏在數據挖掘工具的功能模塊之中。 初級的CRM挖掘人員會(huì )把注意力放在分類(lèi)和精度上面,但真正的“金塊”應該是客戶(hù)保持、購買(mǎi)傾向以及新客戶(hù)獲取的概率值。

  我們應該查看累積提升表(cumulative lift table;例如表1),來(lái)判別模型是否真正有效地把正確肯定(true-positives)放在了靠前的分組里。 累積提升表可以通過(guò)以下方式創(chuàng )建:   
  1. 預測概率值按降序方式存儲為有序列表

  2. 把這個(gè)有序列表劃分為10段(分組)

  3. 計算每組中的實(shí)際命中數(actual hits,實(shí)際的響應數)

  4. 計算每個(gè)分組的隨機期望值(random expectation),該期望值等于實(shí)際響應總數除以10。也就是說(shuō),在每個(gè)分組中我們期望會(huì )有實(shí)際響應總數的10%會(huì )響應。 如果命中率超過(guò)了隨機期望值,就意味著(zhù)模型為該分組帶來(lái)了提升



  5.  表1: 提升表

    譯者注:

    Decile-分組序號;Hits-命中數,即每組內包含的實(shí)際響應數,等于TP+FN;

    TP-正確肯定;FN-錯誤否定;TN-正確否定;FP-錯誤肯定;

    (TP和FN對應于實(shí)際的響應,TN和FP對應于實(shí)際的非響應)

    Random Hits-隨機命中數,即隨機期望值,等于SUM(TP+FN)/10;

    % of Total-召回率,等于Hits/SUM(Hits)*100;

    Cum % of Total-累積召回率,是% of Total的累積值。

    一共劃分了10個(gè)分組,實(shí)際的總響應數為SUM(Hits)=275,因此每組的隨機期望值為275/10=27.5。第一組的命中數為81,明顯超過(guò)了隨機期望值,其召回率=81/275=29.45%。第二組的命中數為43,也超過(guò)了隨機期望值,其召回率為43/275=15.64%,累積召回率等于第二組的召回率加上前面所有組(即第一組)的召回率,等于15.64%+29.45%=45.09%。

    從上表中可以看出,該模型劃分肯定和否定的閾值應該是在第二個(gè)分組中,這樣才出現了第一組都被預測為肯定,但其中有81個(gè)是正確的肯定(TP),而735個(gè)是錯誤的肯定(FP);第二組中則同時(shí)包含了TP、FN、TN和FP;從第三組之后則都被預測為否定(因為位于閾值之下),因此包含了FN和TN。

    正確肯定(True-Positives,TP): 實(shí)際的響應中,被正確預測為響應的個(gè)數

    錯誤否定(False-Negatives,FN): 實(shí)際的響應中,被錯誤預測為非響應的個(gè)數

    正確否定(True-Negatives,TN): 實(shí)際的非響應中,被正確預測為非響應的個(gè)數

    錯誤肯定(False-Positives,FP): 實(shí)際的非響應中,被錯誤預測為響應的個(gè)數

    通過(guò)對提升表的分析可以看到,在第四個(gè)分段之后,增量提升(incremental lift,第8列中的”% of Total”)下降到隨機期望(每個(gè)分段為10%)之下,而前四個(gè)分段包含了超過(guò)70%的響應。 從下面的增量提升曲線(xiàn)(圖1)中可以明顯看出增量提升和隨機期望的交叉點(diǎn)。


     圖1: 增量提升圖示例


    在增量提升曲線(xiàn)中標示了各個(gè)分段的命中數。 在圖1中可以看到,增量提升曲線(xiàn)在第4個(gè)分段后和隨機期望線(xiàn)(275個(gè)響應的10%,即平均每個(gè)分段27.5個(gè)響應)交叉。 不管營(yíng)銷(xiāo)經(jīng)理怎么去看,上述的表格和圖形都可以把必要的信息傳遞給他們。 營(yíng)銷(xiāo)人員可以借助模型評估工具,來(lái)設定要給多少個(gè)客戶(hù)發(fā)郵件。 以表1為例,營(yíng)銷(xiāo)人員可以向前四個(gè)分段的客戶(hù)(占整個(gè)評分名單的40%)發(fā)郵件,并預期可以命中70%的潛在響應客戶(hù)。

    我們現在已經(jīng)了解該如何評估數據挖掘模型,接下來(lái)就可以深入分析和調整業(yè)務(wù)流程,借助模型的結果來(lái)提高企業(yè)的盈利。 業(yè)務(wù)流程包括:

    1. 數據挖掘過(guò)程

    2. 知識發(fā)現過(guò)程

    3. 業(yè)務(wù)流程管理(BPM)軟件

    4. 知識管理系統

    5. 商業(yè)生態(tài)系統管理

    數據挖掘過(guò)程

      Eric King在“如何在數據挖掘上投資:避免預測型分析中昂貴的項目陷阱的框架”一文(發(fā)表于2005年10月的“DM Review”)中主張數據挖掘是一段旅程,而非終點(diǎn)。他把這段旅程定義為數據挖掘過(guò)程。 該過(guò)程包含如下要素:
      
    1. 一個(gè)發(fā)現過(guò)程

    2. 具有靈活的框架

    3. 按照清晰定義的策略進(jìn)行

    4. 包含多個(gè)檢查點(diǎn)

    5. 多次定期的評估

    6. 允許在反饋環(huán)路中對函數進(jìn)行調整

    7. 組織為疊代式的架構

    過(guò)程模型

      很多數據挖掘工具的廠(chǎng)商都對這個(gè)過(guò)程進(jìn)行了簡(jiǎn)化,使之更加清晰。 SAS將數據挖掘過(guò)程劃分為五個(gè)階段: 抽樣(Sample),解釋(Explain),處理(Manipulate),建模(Model),評估(Assess)。 過(guò)去人們常用循環(huán)式的飲水器來(lái)比喻數據挖掘過(guò)程。 水(數據)首先涌上第一層(分析階段),形成漩渦(精煉和反饋),等到聚積了足夠多“已經(jīng)處理過(guò)”的水之后,就溢出來(lái)流到下一個(gè)更低的層中。 不斷地進(jìn)行這種“處理”,直到水流到最低層。在那里它被抽回頂層,開(kāi)始新一輪的“處理”。 數據挖掘和這種層次式的疊代過(guò)程非常相像。 甚至在很多數據挖掘算法的內部處理也是如此,比如神經(jīng)網(wǎng)絡(luò )算法,就是在數據集上多次運行(epochs),直至發(fā)現最優(yōu)解。 Insightful Miner已經(jīng)在其用戶(hù)界面中內建了簡(jiǎn)單過(guò)程模型。 這種集成可以幫助用戶(hù)把必要的數據挖掘任務(wù)組織起來(lái),讓任務(wù)能夠按照正確的順序來(lái)處理。

      但使用飲水器來(lái)比喻數據挖掘過(guò)程還不算恰當,因為它沒(méi)有反映出反饋環(huán)路,而反饋環(huán)路在數據挖掘過(guò)程中是很常見(jiàn)的。 例如,通過(guò)數據評估可以發(fā)現異常的數據,從而要求從源系統中抽取更多的數據。 或者,在建模之后,會(huì )發(fā)現需要更多的記錄才能反映總體的分布。

      在CRISP過(guò)程模型中進(jìn)行了解決這個(gè)問(wèn)題的嘗試,該模型是由Daimler-Benz、ISL (Clementine的開(kāi)發(fā)者)和NCR共同制定的。 CRISP同時(shí)也被集成到Clementine挖掘工具(現在屬于SPSS公司)的設計中。 CRISP幾乎反映了完整的數據挖掘環(huán)境。

      圖2: CRISP圖例

      使用數據建模其實(shí)和做陶土模型或者大理石模型差不多。 藝術(shù)家首先從一大堆材料開(kāi)始著(zhù)手,經(jīng)過(guò)許多次的加工和檢查,才誕生了最終的藝術(shù)品。很多人在建模過(guò)程中常常沒(méi)有充分理解建模的本質(zhì),由此帶來(lái)了一系列問(wèn)題,使得建模變得很復雜。 Eric King發(fā)現數據挖掘是一個(gè)循環(huán)的過(guò)程(就象上圖中的CRISP流程圖),而非線(xiàn)性的過(guò)程。 這種循環(huán)式的數據挖掘過(guò)程會(huì )讓您想起Wankel轉式汽車(chē)發(fā)動(dòng)機。 這種發(fā)動(dòng)機是一圈一圈旋轉的(而非上下運動(dòng)),不斷輸出動(dòng)能來(lái)驅動(dòng)汽車(chē)。 與之相似,數據挖掘過(guò)程也是不斷循環(huán),產(chǎn)生信息來(lái)幫助我們完成商業(yè)目標。 信息就是推動(dòng)商業(yè)的“能量”。 在挖掘過(guò)程中會(huì )有很多對前一個(gè)階段的反饋(例如,在完成初步建模之后可能需要獲取更多的數據)。

      不過(guò),在CRISP流程中還是遺漏了一個(gè)要素——那就是對數據倉庫或源系統的反饋。 前一次CRM營(yíng)銷(xiāo)活動(dòng)的結果應該導入數據倉庫,為后續的建模提供指導,并能跟蹤營(yíng)銷(xiāo)活動(dòng)間的變化趨勢。 我在CRISP流程圖中加入了這些反饋,以紅線(xiàn)表示(見(jiàn)圖2)。

      通過(guò)數據挖掘過(guò)程的結構,我們可以得知數據挖掘工具必需能完成那些任務(wù),但是工具常常會(huì )缺少對部分功能的支持。 當產(chǎn)生了挖掘結果時(shí),你會(huì )怎么使用這些結果呢? 此外,針對挖掘結果所采取的這些行動(dòng)又將如何影響后續的挖掘? 數據挖掘工具應該具備的一些功能包括:

    1. 將模型導出到多種數據庫結構中

    2. 模型的導出格式,適合于決策支持和商業(yè)行動(dòng)的應用

    3. 挖掘算法的輸出數據,可以為另外的算法所用

    4. 能夠比較不同算法的結果

    IT專(zhuān)家網(wǎng)



相關(guān)鏈接:
如何在Linux平臺上遷移SugarCRM? 2007-09-29
B2B和B2C CRM:差異概述 2007-09-29
CRM的誘惑 2007-09-27
CRM:中資銀行競爭力短板 2007-09-27
CRM應用實(shí)戰之一:如何利用CRM制定銷(xiāo)售目標? 2007-09-27

分類(lèi)信息:        
相關(guān)頻道:  數據挖掘    IP呼叫中心    
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 类乌齐县| 冕宁县| 木里| 中西区| 贵阳市| 神农架林区| 什邡市| 高邑县| 城固县| 东乌| 黄大仙区| 莫力| 延长县| 双流县| 柳江县| 墨玉县| 龙胜| 石泉县| 名山县| 云和县| 大名县| 福贡县| 江永县| 应用必备| 兴文县| 清苑县| 辽宁省| 紫云| 甘南县| 博兴县| 正安县| 巫山县| 越西县| 澄迈县| 特克斯县| 连江县| 岳阳县| 鄢陵县| 沁阳市| 灵丘县| 巴塘县| http://444 http://444 http://444 http://444 http://444 http://444