消費者數據挖掘系統建立的幾個(gè)問(wèn)題
陳宏 2002/09/03
隨著(zhù)國內金融和保險業(yè)的改革和發(fā)展,特別是中國加入WTO以后,為了提高自身的競爭力,國內金融保險公司都開(kāi)始加速建立和完善自己的管理系統。這是適應競爭的需要,也是消費者日益成熟起來(lái)的必然結果。市場(chǎng)機制一方面給了消費者選擇的權利,消費者有了選擇和誰(shuí)交易的自由;另一方面,市場(chǎng)機制也給了公司發(fā)展的機會(huì )和挑戰,誰(shuí)的管理水平高、合理、誰(shuí)靈活,誰(shuí)就能得到不斷的發(fā)展。
圖1 不同的追繳電話(huà)費的策略
數據挖掘的過(guò)程大致包括數據樣本的選擇、數據的初級分析和建立數學(xué)/統計模型。這個(gè)過(guò)程就是用來(lái)挖掘和發(fā)現新的有關(guān)顧客和市場(chǎng)的關(guān)系,從而能夠幫助商業(yè)管理人員來(lái)做決策。
因此,首先應該發(fā)現所面臨和要解決的問(wèn)題是什么。是為了發(fā)現新的、能帶來(lái)利潤的顧客呢?還是為了向現有的顧客推銷(xiāo)新產(chǎn)品?或者是想加快電話(huà)費的拖欠款回收?這個(gè)看似簡(jiǎn)單的問(wèn)題,實(shí)際上是數據挖掘的關(guān)鍵。從美國電報電話(huà)公司的宇宙卡操作中,我們可以看到正確地回答這個(gè)問(wèn)題并不容易。信用卡公司是最終目的是為了贏(yíng)利,要平衡風(fēng)險和回報的關(guān)系,信用好并不等于利潤回報就高。舉例來(lái)講,美國電報電話(huà)信用卡的商業(yè)問(wèn)題應該是如何找到帶來(lái)利潤高的顧客。而一個(gè)財產(chǎn)保險公司的問(wèn)題則是如何降低保險的賠償費用?
上面的問(wèn)題有了明確的定義后,就要開(kāi)始進(jìn)行初步的數據分析,從成百上千的變量里面計算并發(fā)現哪些變量和要解決的問(wèn)題有關(guān)系。這一步大概就是為什么叫數據挖掘了。在分析過(guò)程中,很可能需要從現有的數據變量里面重新組合出許多新的變量,讓人感覺(jué)有點(diǎn)像大海撈針。在這個(gè)步驟中,行業(yè)經(jīng)驗和數據挖掘經(jīng)驗非常重要。有經(jīng)驗的工作人員可能只需要沒(méi)經(jīng)驗的人1/5的時(shí)間就將這一步做好,而效果卻往往更好。這要求數據挖掘系統的設置要合理,不合理的設置會(huì )浪費很多時(shí)間。
然后,從所發(fā)現的有關(guān)系的變量中建立能幫助解決問(wèn)題的數學(xué)/統計模型。建立模型能夠發(fā)現的相關(guān)變量和要解決的商業(yè)問(wèn)題數字連起來(lái),發(fā)現一個(gè)變量有多少幫助解決問(wèn)題的可能性。
拿信用卡來(lái)講,年齡變量有多少幫助發(fā)現有利潤的顧客的可能性?婚姻情況又有多少可能性?理論上來(lái)說(shuō),可以建立的模型是無(wú)窮無(wú)盡的,關(guān)鍵在于怎么區分什么模型是好的,如何發(fā)現最好的模型。
模型建立過(guò)程還要求產(chǎn)生模型的預測數據。沒(méi)有預測數據,就無(wú)從知道在實(shí)際應用中模型是否符合實(shí)際情況。
合理建立數據挖掘系統
同樣是美國最大的電話(huà)公司之一,Bell Atlantic的數據挖掘系統卻是非常成功的,不僅為他們的業(yè)務(wù)開(kāi)展帶來(lái)很大的方便,而且節省了許多開(kāi)支。Bell
Atlantic的電話(huà)服務(wù)目前已經(jīng)覆蓋了美國14個(gè)州,擁有商業(yè)電話(huà)、住家電話(huà)帳戶(hù)近億個(gè)。
Bell Atlantic 數據挖掘系統的首要任務(wù)就是盡快地追收拖欠的電話(huà)費,同時(shí)盡量減少收債部門(mén)的成本。
軟件系統的選擇非常重要。經(jīng)過(guò)反復挑選后,Bell Atlantic采用了SAS統計軟件系統建立數據挖掘系統,然后在SAS環(huán)境中利用SAS宏程序建立挖掘系統。SAS的專(zhuān)長(cháng)是進(jìn)行統計計算。它還有許多其他的優(yōu)點(diǎn):可以讀取大量計算機系統里的數據,可以解讀近百種的數據模式;計算速度快,能進(jìn)行大數據量的計算;它的宏程序建立也比較直接。
圖2 ROC曲線(xiàn)圖
然后是建立SAS格式庫。許多數據需要格式化,比如年齡,可以從20到100歲,需要分成不同的組,這都需要利用模式來(lái)進(jìn)行數據轉換。有的數據不是連續變量,比如婚姻狀況(單身/已婚),也需要進(jìn)行一些變換才可以進(jìn)行計算。日期也是需要模式化的,不同計算機系統記錄日期方法不同,需要把日期轉換成一致的方法。在金融保險行業(yè)日期這個(gè)變量非常重要,因為很多客戶(hù)的行為都記錄在日期里面了。電話(huà)公司里記帳、付款的日期也非常重要。
接著(zhù),建立SAS的宏程序庫。幾乎所有重要的數據挖掘功能都需要利用宏程序來(lái)實(shí)現。K-S系數的計算,模型預測表現的表格產(chǎn)生和報告,幫助做管理決策的ROC曲線(xiàn),等等。
第一步的數據分析,把 Bell Atlantic 覆蓋的14個(gè)州分成了6組,商業(yè)帳戶(hù)和居民帳戶(hù)分開(kāi),然后又對不同的帳戶(hù)進(jìn)一步第分成了8個(gè)類(lèi)型,前前后后一共建立了近40個(gè)不同的追收拖欠電話(huà)費的模型。這個(gè)項目Bell
Atlantic花費了一百多萬(wàn)美元。
這樣,Bell Atlantic就能計算出有關(guān)客戶(hù)的概率可能性,包括客戶(hù)從一個(gè)月未交電話(huà)費到兩個(gè)月未交的可能性;客戶(hù)從三個(gè)月未交電話(huà)費到變成壞債的可能性,以及壞債客戶(hù)變成死債客戶(hù)的可能性。同時(shí),還對追交拖欠電話(huà)費用的策略提供線(xiàn)索,確認哪些帳戶(hù)應該進(jìn)行追債活動(dòng);哪些帳戶(hù)有可能拖欠電話(huà)費;并且提供量化的追債策略,對不同的帳戶(hù)采用不同的辦法。
這個(gè)系統能有效地避免帳戶(hù)從拖欠電話(huà)費變成呆債壞債,減少死債的出現。減少需要進(jìn)行收債部門(mén)的人員數目,從而降低了成本。在美國的電話(huà)公司中,一個(gè)拖欠電話(huà)費的客戶(hù),用信件來(lái)追繳的成本大約是1美元;而通過(guò)電話(huà)來(lái)追繳,平均成本在30美元左右。正確選用信件追繳還是電話(huà)追繳,可以節省大約25美元的成本。采用高強度的追繳比用低強度的追繳多花大約60美元。可見(jiàn),數據挖掘能起到的經(jīng)濟效益是非常高的。
如何在中國建數據挖掘系統?
建立數據挖掘系統,首先要考慮資金的問(wèn)題。SAS 軟件系統的年費根據計算機的計算速度不同價(jià)格不同,大概從十幾萬(wàn)人民幣到近百萬(wàn)人民幣一年。在SAS之上建立的數據挖掘系統大約系統本身要50萬(wàn)人民幣左右,系統的安裝,調試和人員的培訓大約要25萬(wàn)到50萬(wàn)人民幣不等。
需要指出的是,SAS 公司也有自己的數據挖掘的子系統,但是它有一些問(wèn)題,即是數據變換不靈活;也沒(méi)有很多報告的功能和產(chǎn)生圖的功能,格式化也不容易;而且價(jià)格也不菲。所以有條件的話(huà),數據挖掘系統還是專(zhuān)門(mén)定制好。
數據挖掘系統的人員要求也很重要。數據挖掘的人員首先要有良好的統計概念,其次要懂得基本的商業(yè)和行業(yè)概念。選擇怎樣的客戶(hù)是決策的關(guān)鍵。就拿信用卡來(lái)說(shuō),如果嚴格要求客戶(hù)的信用太好,反而像美國電報電話(huà)公司一樣,你肯定賺不到錢(qián);
反過(guò)來(lái),如果隨便就給人信用,同樣也賺不到錢(qián),因為這樣壞帳呆帳會(huì )太多了。
追繳策略樣本
最后,數據挖掘部門(mén)的任務(wù)就是發(fā)現在什么基準線(xiàn)上做出合理的解決方案。數據挖掘的人員需要通過(guò)計算解決以下的幾個(gè)問(wèn)題才能得出答案,即是平均一個(gè)好客戶(hù)能賺多少錢(qián)?平均一個(gè)壞客戶(hù)能虧損多少錢(qián)?數據挖掘出來(lái)的模型的分辯好壞的分辨率是多少?所有可能的客戶(hù)群里面好客戶(hù)和壞客戶(hù)的比例大約是多少?銀行的儲蓄利率是多少?
也許有人要問(wèn):這和銀行的利息有什么關(guān)系?這里邊關(guān)系到機會(huì )成本的問(wèn)題,也就是說(shuō),如果信用卡公司不把錢(qián)給客戶(hù)用,而是存到銀行里提取利息,這個(gè)利息收入實(shí)際上是個(gè)機會(huì )成本。
利用ROC曲線(xiàn),就可以計算出來(lái)在什么條件下可以給人信用卡,什么條件下不給。數據挖掘的人員至少要看得懂ROC曲線(xiàn),知道里面的導數是干什么用的。
賽迪網(wǎng)
中國信息化(industry.ccidnet.com)
談?wù)凜RM哲學(xué) 2002-09-03 |
回顧CRM歷史 2002-09-03 |
讓我們擎起房地產(chǎn)行業(yè)的大旗 2002-09-03 |
CRM我之見(jiàn) 2002-09-02 |
CRM原罪:25種管理工具排名倒數第三 2002-09-02 |