編者按:在今日IT界,“大數(shù)據(jù)”炙手可熱。有人將“大數(shù)據(jù)”喻為與蒸汽、電力、石油相媲美的下一代重要自然資源,是企業(yè)未來(lái)競(jìng)爭(zhēng)優(yōu)勢(shì)的基礎(chǔ)。遠(yuǎn)傳技術(shù)上海研發(fā)中心的葛培明博士一直關(guān)注研究“運(yùn)營(yíng)數(shù)據(jù)分析”領(lǐng)域,對(duì)“大數(shù)據(jù)”有一番自己的見(jiàn)解,以下是他對(duì)大數(shù)據(jù)的一些看法:
Q: 葛博士,您好。請(qǐng)問(wèn)您是如何看待大數(shù)據(jù)的作用,尤其是非結(jié)構(gòu)化數(shù)據(jù)?
A:您好。互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、語(yǔ)音電話、物流網(wǎng)絡(luò)、電子商務(wù)和企業(yè)內(nèi)部信息化軟件,這些系統(tǒng)每一分每一秒都在產(chǎn)生大量的數(shù)據(jù)。據(jù)估計(jì),過(guò)去兩年間產(chǎn)生的數(shù)據(jù)占目前全球數(shù)據(jù)的90%,新的數(shù)據(jù)正在以每天2.5EB的量級(jí)高速增長(zhǎng)。
通過(guò)對(duì)不同來(lái)源數(shù)據(jù)的管理、處理、分析與優(yōu)化,并將分析與優(yōu)化的結(jié)果應(yīng)用到實(shí)踐中,將創(chuàng)造出巨大的經(jīng)濟(jì)和社會(huì)價(jià)值。
從企業(yè)自身的發(fā)展來(lái)講,企業(yè)正在經(jīng)歷從“經(jīng)驗(yàn)驅(qū)動(dòng)”到“數(shù)據(jù)驅(qū)動(dòng)”的階段,例如,零售商可以通過(guò)大數(shù)據(jù)的分析實(shí)時(shí)掌握市場(chǎng)動(dòng)態(tài)并迅速做出應(yīng)對(duì);大數(shù)據(jù)分析為制定更加精準(zhǔn)有效的營(yíng)銷策略提供決策支持,為消費(fèi)者提供更加及時(shí)和個(gè)性化的服務(wù)。另外,大數(shù)據(jù)也在改變著人們的思維,從抽樣分析到全數(shù)據(jù)分析,從因果關(guān)系分析到相關(guān)關(guān)系分析,大數(shù)據(jù)正在改變著人類科學(xué)研究的手段。
對(duì)于非結(jié)構(gòu)化數(shù)據(jù)的處理與分析,目前還存在一些瓶頸,但每一次突破都會(huì)帶來(lái)技術(shù)與商業(yè)的革命。
Q:您能舉例說(shuō)明一下大數(shù)據(jù)挖掘的神奇效果嗎?
A:谷歌公司利用5000萬(wàn)條最頻繁檢索的詞條,并對(duì)美國(guó)疾控中心在2003年到2008年間季節(jié)性流感傳播時(shí)期的數(shù)據(jù)進(jìn)行了比較,成功的預(yù)測(cè)了冬季流感在全美范圍的傳播,而且具體到特定的地區(qū)和州,預(yù)測(cè)結(jié)果發(fā)布的時(shí)間比官方數(shù)據(jù)早了一兩周。
Q:請(qǐng)問(wèn)您覺(jué)得國(guó)內(nèi)企業(yè)是否重視大數(shù)據(jù)?他們是如何采集和挖掘大數(shù)據(jù)的?達(dá)到了怎樣的效果?他們?cè)诓杉屯诰蛏线需要哪些改善?請(qǐng)結(jié)合實(shí)際例子談一談。
A:目前國(guó)內(nèi)的很多企業(yè)或組織也逐漸意識(shí)到大數(shù)據(jù)分析的價(jià)值和重要性。
對(duì)于大數(shù)據(jù)的采集和挖掘,他們進(jìn)行了許多實(shí)踐。比如大型電商、銀行、保險(xiǎn)、電信運(yùn)營(yíng)商等都在不同程度的利用大數(shù)據(jù)進(jìn)行決策支持,而且已經(jīng)有一些成果。例如電商的智能推薦系統(tǒng)、保險(xiǎn)的需求預(yù)測(cè)、電信運(yùn)營(yíng)商的個(gè)性化服務(wù)等。
在具體方法上,這些企業(yè)多數(shù)選用了客戶行為分析軟件,他們?nèi)〉玫某晒兔媾R的問(wèn)題,從客戶行為分析軟件在國(guó)內(nèi)的發(fā)展歷程上就可以體現(xiàn)出來(lái)。
客戶行為分析的目標(biāo)就是大數(shù)據(jù),它起源于國(guó)外,09年進(jìn)入中國(guó)。
最初的客戶行為分析稱之為流量統(tǒng)計(jì),它的主要功能就是統(tǒng)計(jì)網(wǎng)站有多少人訪問(wèn),每一個(gè)頁(yè)面有多少點(diǎn)擊量。在當(dāng)時(shí),這款軟件還是產(chǎn)生了很大作用。但是流量統(tǒng)計(jì)有兩個(gè)非常基礎(chǔ)的問(wèn)題沒(méi)有解決:一是網(wǎng)頁(yè)內(nèi)部的點(diǎn)擊沒(méi)有跟蹤,這就造成客戶行為不全。二是不了解客戶屬性,比如網(wǎng)站有100萬(wàn)的訪問(wèn)量,但是不知道這100萬(wàn)是誰(shuí)。
所以出現(xiàn)了第二代的客戶行為分析,它是基于電子商務(wù)的客戶行為。除了流量統(tǒng)計(jì)之外,還可以跟蹤內(nèi)部點(diǎn)擊,通過(guò)頁(yè)面的訪問(wèn)量、平均每次交易額等,定制一些流程圖,看出交易中的不足。第二代客戶行為分析解決了流量時(shí)代的第一個(gè)缺陷,在電子商務(wù)領(lǐng)域取得了非常巨大的成功。
但是適用于電商領(lǐng)域的客戶分析軟件,在非電子商務(wù)領(lǐng)域卻水土不服。