數據挖掘講座之一:我所知道的一點(diǎn)Data Mining
趙民德 2003/01/24
市場(chǎng)競爭的激烈迫使企業(yè)高層尋找更為科學(xué)、系統、有效的輔助決策技術(shù)和整體解決方案來(lái)處理日益復雜的公司事務(wù)。毫無(wú)疑問(wèn),數據挖掘就是很好的選擇之一。數據挖掘到底是什么?數據挖掘作為一個(gè)過(guò)程,是否有章可循、有規可依?企業(yè)應該在哪些領(lǐng)域應用數據挖掘技術(shù)?目前,數據挖掘的技術(shù)咨詢(xún)、系統集成、工具軟件的狀況究竟怎樣?新年伊始,我們和中國人民大學(xué)數據挖掘中心一起精心組織推出這個(gè)專(zhuān)題,希望通過(guò)這個(gè)專(zhuān)題向讀者傳遞實(shí)用的信息。
作者簡(jiǎn)介
趙民德(Min-Te Chao) 教授,美國加州大學(xué)柏克萊分校統計博士(1967),數據挖掘國際刊物JDSA執行總編。主要研究方向:抽樣論、自動(dòng)重抽法、衰變量據的分析。
Data Mining(數據挖掘,下文簡(jiǎn)稱(chēng)DM),光是看它的數據量,絕對是一頭大象。各家各派對它的看法不同,因為各人摸到的是自己可以摸到的那一部分。我雖然知道,同時(shí)也極力呼吁DM應以實(shí)用為主,但基本上還是學(xué)院派。通常,學(xué)院派的人認為,如果一件事一定可以做成,那么也就不免無(wú)趣。
數據挖掘的緣起
什么叫Data Mining?關(guān)于定義,各人的說(shuō)法不一。基本上我們可以用一個(gè)例子講清楚:先給你一個(gè)大的數據集──假設你可以從中讀取數據,下面的問(wèn)題是:從這里你可以得到什么?從某種角度來(lái)看,這是百分之百的統計分析工作,只是數據集太多的緣故罷了。但我們并不想忘記這些數據集是做
IT 的人這么多年來(lái)逐漸制造出來(lái)的,更何況他們對于如何有效而快速地存儲、選取和管理數據,確是有一套真功夫。在 IT 的骨架上把統計的精髓放進(jìn)去,這的確是對現在這個(gè)信息時(shí)代的大挑戰。
時(shí)代變了,現在的數據來(lái)得既多又快還便宜,多到?jīng)]有人有時(shí)間去看的程度。這就如同我們的醫療體系。早先的醫生還要望聞問(wèn)切,在少量的數據中,設法提取、組合出最好的治療方案。現在則是一個(gè)名醫,一上午要在門(mén)診醫治一百五十個(gè)病人以上。他只能憑某種算法、也就是經(jīng)驗來(lái)看病:?jiǎn)?wèn)一兩個(gè)問(wèn)題,聽(tīng)一兩個(gè)問(wèn)題,然后開(kāi)藥。這種對數據的不同的處理方式是數據挖掘和傳統的數據分析的主要區別。
說(shuō)實(shí)在的,我們已經(jīng)在某些方面具有相當的信息化程度了。你去任何一家醫院看病,哪一個(gè)窗口沒(méi)放著(zhù)一臺PC?醫生暗示你可以離開(kāi)的時(shí)候,值班的護士已經(jīng)在她的
PC 上鍵入了許多你的資料。于是你直接可以去劃價(jià)、取藥,連下一次的預約也有人安排好了。前天,我去醫院借了一張X光片,一位五十多歲的老職員用“一陽(yáng)指”在鍵盤(pán)上一步一個(gè)“腳印”地敲了不知多久,才輸入了該有的個(gè)人信息,然后大家就都松一口似地讓計算機去跑,最后當然是拿到X光片。這時(shí)回顧身后,已排了一條長(cháng)龍。
這種情況,也暗示著(zhù)目前信息社會(huì )的一類(lèi)尷尬問(wèn)題:很多事情都還配不上如此快的計算機—老職員的手指速度固然配不上,我們做統計的人和現有的某些統計方法也配不上,甚至于很多統計觀(guān)念恐怕也都配不上。于是
IT 的人就跳進(jìn)來(lái)做了個(gè)項目:既然有了花大錢(qián)做出來(lái)的數據庫,而且這么多年下來(lái)數據堆得滿(mǎn)坑滿(mǎn)谷,好歹要告訴出錢(qián)的老板“這有什么用”。于是,DM便應運而生了。
如何看待數據挖掘
數據挖掘是先有了數據才興起的行業(yè)。我不想說(shuō)“學(xué)問(wèn)”,因為到現在為止,我好像都看不到大學(xué)問(wèn)。數據挖掘能幫我做什么?不同的人有不同的看法,比較樂(lè )觀(guān)的是Berry
and Linoff (1997) 的說(shuō)法:分析報告給你后見(jiàn)之明 (hindsight);統計分析給你先機 (foresight);數據挖掘給你洞察力
(insight)。
這話(huà)說(shuō)得太強,我不是那么地相信。因為這三者都是在既有的數據上做分析,在概念上應該并無(wú)本質(zhì)區別,差別只是手上的數據集的大小和性質(zhì),因此,由方法的不同才有定義的不同。
較負面的理解來(lái)自Friedman (1997),他說(shuō):“Data mining is a commercial enterprise that
seeks to mine the miners。(數據挖掘就是商業(yè)企業(yè)竭力去尋找挖掘者的過(guò)程。)”這句話(huà)有多少真實(shí)的成分,我并不清楚,但是酸味還是有一點(diǎn)的。在雅虎上鍵入“Data
Mining”,立刻便找到一百五十多個(gè)網(wǎng)址。如果用Google 搜尋,它在0.34秒內就找到1,260,000項查詢(xún)結果。這是在方法論都還沒(méi)有成熟之前便已有大量商品充斥的情形。看起來(lái)真是商機無(wú)限。在另一方面,我卻在文獻上讀到:“……
while I appreciate the importance of data mining, in practice the profit
it brings has turned out to be surprisingly limited in many key businesses.(雖然我認可數據挖掘重要性,事實(shí)上,在很多關(guān)鍵的業(yè)務(wù)中,它所帶來(lái)的利潤已證明出奇有限。”
(Kann 2000)
多半的數據庫在建造時(shí)都另有目的,并不是設計來(lái)給大家挖掘的。上帝給我們大海,也許只是想給我們鹽。現在鹽的利潤有限,大家就拼命去提煉鈾,結果自然就不會(huì )十分理想。
我認為,比較中肯的是 Hand et al. (2000) 的說(shuō)法:“Data mining is the process of seeking
interesting or valuable information in large data bases.(數據挖掘是一種在大型數據庫中尋找你感興趣或是有價(jià)值信息的過(guò)程。)”
挖掘需要“用心看”
Demming (1943) 曾說(shuō)過(guò):“搜集數據的目的是為了行動(dòng)。”這是在數據的搜集并不便宜的時(shí)候所說(shuō)的話(huà)。現在要反過(guò)來(lái)看:已經(jīng)有了一大堆數據,當初只是為了搜集而搜集──因為反正不貴,而且說(shuō)不定某一天會(huì )有用─現在我們應該問(wèn),這些數據可以提供怎樣的信息,能讓數據的所有者采取何種有效的行動(dòng)?我的意思是我們需要用心地去看這些數據。“用心看”有兩個(gè)角度:整體和局部。
從整體看: 模型
從整體的角度來(lái)看一個(gè)數據集,是靠統計學(xué)里面的抽樣方法就可以發(fā)揮得不錯的。抽樣的要點(diǎn)是細化──用一組較小的、容易處理的精選的數據來(lái)反映整體。在這里我們可以做一大堆傳統的建模工作,但這里面最主要的觀(guān)念是抽樣。
例如 SAS 的Enterprise Miner軟件中所構建出來(lái)的“表格”,就是全部數據的抽樣所得。從抽樣的觀(guān)點(diǎn)來(lái)看,數據量再多也不是問(wèn)題──它反而可使抽樣理論更加簡(jiǎn)單。在數據庫上抽樣,成本低,且沒(méi)有我們最頭痛的non-response(無(wú)反應)問(wèn)題。這一部分,可以說(shuō)是所有我們想做的理論和方法都十分成熟,
只要找一群還不錯的人,將這些已知的事物組合包裝就好。在表格上做傳統分析,最后的結果當然是一個(gè)可以用來(lái)描繪所有數據之間的關(guān)系的模型。
從局部看: 模式發(fā)現
從局部的角度來(lái)看數據挖掘,到目前為止,主要的目的是模式發(fā)現。這和我們常聽(tīng)到的模式識別頗有不同。用雷達找飛機的工作,算是后者──我們知道飛機是我們要找的對象。但是在數據挖掘中,我們在通常情況下并不知道我們要找的東西是什么。在技術(shù)上,這也不能通過(guò)抽樣的方法來(lái)做。模式是數據的局部結構,在這一部分,數據挖掘強調的方法是算法。數據一多,光憑人力是不能完全解決問(wèn)題的,我們只有靠明確的指令讓計算機一個(gè)一個(gè)幫我們找。那么在這里,我們就完全用不上統計方法嗎?也不盡然。在提取訓練樣本(training
sample)的時(shí)候,我們是可以把實(shí)驗設計的想法放進(jìn)去的。
CRM(客戶(hù)關(guān)系管理)的發(fā)展現狀以及展望 2003-01-24 |
關(guān)于客戶(hù)關(guān)系管理的十個(gè)觀(guān)察與議論 2003-01-22 |
用CRM眼光來(lái)看待"市場(chǎng)" 2003-01-21 |
面對CRM 企業(yè)決策層該如何選擇? 2003-01-21 |
用CRM眼光來(lái)看待服務(wù) 2003-01-20 |