• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    首頁(yè) > 專(zhuān)題 > 文思海輝-乘數據之舟-達價(jià)值彼岸 > 數據應用之道--大數據在銀行業(yè)的應用(蘇州站)

    數據應用之道--大數據在銀行業(yè)的應用(蘇州站)
    2014-12-08 15:07:24   評論:0 點(diǎn)擊:

      隨著(zhù)中國金融市場(chǎng)的快速發(fā)展,互聯(lián)網(wǎng)金融對傳統金融行業(yè)的競爭,以及監管力度的不斷加強,IT咨詢(xún)服務(wù)公司對金融企業(yè)的商業(yè)智能方案也面臨不斷創(chuàng )新。如何提升金融機構在管理、盈利、風(fēng)險控等多方位的能力?如何將國際經(jīng)驗更好的為中國市場(chǎng)服務(wù)?如何通過(guò)解決方案將海量數據轉化為對經(jīng)營(yíng)決策有價(jià)值的信息之路?如何將客戶(hù)智能分析成果行之有效地運用于服務(wù)渠道,并最終轉換為銷(xiāo)售業(yè)績(jì)?為解決中國金融機構在發(fā)展中所面臨的新問(wèn)題,文思海輝在西安、蘇州、北京、成都、深圳五地舉辦了6場(chǎng)“乘數據之舟,達價(jià)值彼岸”系列活動(dòng)。

      在主題為“乘數據之舟,達價(jià)值彼岸”的文思海輝商業(yè)智能解決方案系列研討會(huì )蘇州站現場(chǎng),文思海輝商業(yè)智能高級服務(wù)總監符海鵬先生分享了大數據在銀行業(yè)的應用。



    文思海輝商業(yè)智能高級服務(wù)總監 符海鵬

      以下為演講實(shí)錄:

      各位領(lǐng)導、各位專(zhuān)家大家下午好,這里我人頭最熟,大部分都是我的老朋友,當然有很多遠道而來(lái)的新客戶(hù),今天是由我來(lái)跟大家一起分享一下我們文思海輝對大數據的理解包括我們整個(gè)的能力。

      確實(shí)我們這次請的客戶(hù)主要是來(lái)自于華東跟華東區,從直接負責的角度來(lái)講,都是由我來(lái)負責的,我必須要跟大家做一下自我介紹,我叫符海鵬,背景跟剛才講話(huà)的兩位領(lǐng)導是一模一樣的,在這樣一個(gè)領(lǐng)域里面,應該說(shuō)我們這些人在這個(gè)領(lǐng)域上工作了有十幾年,隨著(zhù)大數據包括新的互聯(lián)網(wǎng)發(fā)展,我相信我覺(jué)得我們這幫人可能會(huì )在這個(gè)業(yè)內做一輩子,應該沒(méi)有大的問(wèn)題。

      今天跟大家講的是大數據的一個(gè)分享,但在大數據領(lǐng)域,其實(shí)我這個(gè)課題非常難講,坦誠講在我們金融行業(yè),大數據真的使用并沒(méi)有那么多,案例從分享來(lái)講,包括客戶(hù)聊,大家都在問(wèn)我們,我們到底用大數據做什么,我們以前有數據倉庫,我們以前有數據挖掘,有這些分析我們到底做什么,我有一個(gè)大的思路,第一個(gè)我們做事情不會(huì )去促成方圓,我們做的事情第一個(gè)首先有個(gè)理論,先講一下,站在我個(gè)人的角度上,我是如何看待這個(gè)大數據,第二件事情,我們通過(guò)技術(shù),在座的更多的是我們科技部門(mén)的人,我們做技術(shù)是要依托于業(yè)務(wù),業(yè)務(wù)有一個(gè)原始的需求會(huì )擋住我們的發(fā)展,我會(huì )先講一下,我們的典型應用,我們的領(lǐng)導也談到了一些內容,第三個(gè)層面回歸技術(shù),我們技術(shù)上如何實(shí)現這些業(yè)務(wù),我會(huì )把一些架構圖跟大家做一些分享,其實(shí)昨天我還在中國銀行做了一次技術(shù)上的分享,他們也比較極端,中國銀行會(huì )有一些歷史的背景,比如他們沒(méi)有統一的數據倉庫,沒(méi)有統一的ODS,大的業(yè)務(wù)每個(gè)業(yè)務(wù)條線(xiàn)都是自己的行為來(lái)去做數據的規劃,現在就想彎道超車(chē),一步性的做一些ODS,直接想大數據去做,昨天我們也做了一些技術(shù)上的討論,跟他們做了一些分享。

      最后其實(shí)在大數據引用,在這個(gè)領(lǐng)域說(shuō)我們其實(shí)很講跨界整合,這個(gè)領(lǐng)域上我們文思海輝跟我們的電信運營(yíng)商,甚至包括我們的學(xué)校,也包括我們互聯(lián)網(wǎng)等等相關(guān)的協(xié)議已經(jīng)有些初步的合作跟嘗試,我們會(huì )把這個(gè)情況跟大家介紹一下。最后有一點(diǎn)小小的建議,跟各位領(lǐng)導跟各位專(zhuān)家我的一些建議,我的一些想法跟大家分享一下。首先講一下理論研究,其實(shí)這個(gè)都不用看,大家天天聽(tīng)課已經(jīng)會(huì )有一些基礎的定義我有一個(gè)理解,其實(shí)大數據我分成兩個(gè)大層面,第一個(gè)叫廣義大數據,第二個(gè)叫狹義大數據,廣義大數據是我們所有人都在談,不光是我們做科技的人,我們做外面的人,我們的銀行行長(cháng)也好,各個(gè)業(yè)務(wù)人員也好,我們要用大數據,實(shí)際上這是個(gè)業(yè)務(wù)數據,不是技術(shù)數據,另外一個(gè)層面從狹義上講它是個(gè)技術(shù),我們看一下廣義大數據的定義,其實(shí)這個(gè)定義大家應該都知道,如果我們排掉它的四個(gè)微屬性定義,不去看它的四個(gè)微屬性定義,五個(gè)微、六個(gè)微屬性定義,其實(shí)它跟我們原來(lái)講的統計分析數據倉庫、數據挖掘這個(gè)有多大區別,無(wú)非就是一個(gè)從數據到信息的一個(gè)轉換過(guò)程,同時(shí)把這個(gè)過(guò)程轉換為行動(dòng)的決策,并且是一個(gè)閉環(huán)的流程,從理論上來(lái)講,跟我們以前所有的概念是一樣的。更強調的是說(shuō)把我們現在這些數據,把它變成我們可用的信息,并且去談?wù)摏Q策,這是它的主要方向,它是一個(gè)量化的進(jìn)程。

      為什么現在開(kāi)始流行,以前我們天天跟大家講我們是做數據分析,我們做數據倉庫,我們做管控,現在開(kāi)始流行確實(shí)是有原因的,第一個(gè)方面是數據分析,理論上講數據分析的重要性越來(lái)越大,第二其實(shí)我個(gè)人還是有技術(shù)上的原因,從技術(shù)上的原因上講,我們把它歸類(lèi)為狹義大數據,我們IT,我們做技術(shù)人員一直在講的狹義大數據上的概念,從狹義上大數據有幾個(gè)關(guān)鍵詞,第一個(gè)關(guān)鍵詞是互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng),它導致了我們更多的人產(chǎn)生了數據,第二物聯(lián)網(wǎng),手機其實(shí)也是屬于物聯(lián)網(wǎng)的范疇,我們現在經(jīng)常在外面聽(tīng)到智能小區、智慧城市等等等等這些,它是由于我們的物,我們的物聯(lián)網(wǎng),甚至我們的傳感器任何一個(gè)東西,它都是一個(gè)物聯(lián)網(wǎng)的概念。由于他倆會(huì )產(chǎn)生更多的數據,而且數據的種類(lèi)是更豐富的,非結構化、半結構化,而不像原來(lái)更多的存儲的是結構化的數據,所以在這個(gè)領(lǐng)域上它是有些不同的。第二個(gè)有一個(gè)發(fā)展,云計算跟云平臺,如果說(shuō)從狹義的技術(shù)角度來(lái)講現在經(jīng)常腦子里聽(tīng)到的Hadoop,它其實(shí)從本質(zhì)上它是一個(gè)云計算跟云平臺的概念的理論運作,我更確切的講理論歸理論,在我們金融行業(yè)里面,真正談的聊的更多的是兩個(gè)東西,第一個(gè)是傳統分析數據的替代,我們原來(lái)有很多的數據庫,Oracle也好、DB2也好,更多的一體機也好,從一個(gè)角度來(lái)講我們更多思考的是說(shuō)我們如何用更好的設備,我們用更好的技術(shù)去滿(mǎn)足傳統分析數據替代的問(wèn)題,第二個(gè)問(wèn)題其實(shí)新的業(yè)務(wù)模式,這個(gè)才是真正意義上大數據的本質(zhì),本質(zhì)上大數據我們要解決的是新的業(yè)務(wù)模式和數據多樣性的問(wèn)題,這個(gè)問(wèn)題在金融領(lǐng)域上,或者講銀行領(lǐng)域上還沒(méi)有更多,但是很多的銀行,比如說(shuō)我們講,剛才尹總也講了蘇州銀行的嘗試跟創(chuàng )新,我們見(jiàn)過(guò)平安銀行的嘗試跟創(chuàng )新,在這個(gè)領(lǐng)域上我們其實(shí)也看到他們有很多的案例,等會(huì )兒我們會(huì )舉兩個(gè)案例給大家看一下。

      我們從具體來(lái)講,技術(shù)來(lái)講跟以前到底有什么不同呢,我自己歸類(lèi),我把它歸類(lèi)大概四個(gè)層面,第一個(gè)層面就是數據類(lèi)型跟海量數據的問(wèn)題,原來(lái)我們其實(shí)說(shuō),我們不能存非結構化數據跟半結構化數據,是可以的,但事實(shí)上,而且它占的量很大,從傳統意義上來(lái)講至少一個(gè)統計,非結構化數據占85%,結構化數據占15%,這個(gè)東西是不可以存,但是我們能分析,完全按照一個(gè)影像文件去做,一個(gè)人臉怎么去做識別,需要多大的量才能去做這個(gè)事情,這是我們要解決的第一個(gè)問(wèn)題,所以我們看的數據,其實(shí)相對來(lái)說(shuō)是殘缺的,我們缺了很大一部分數據,第二個(gè)層面是識別海量數據的性能問(wèn)題,現在其實(shí)快餐社會(huì ),什么東西都講快,從性能角度來(lái)講,傳統的數據庫也好,包括分析技術(shù)也好,可能不太能滿(mǎn)足我們的需求,從第二個(gè)層面來(lái)講,并且我們的渠道上我們也要隨時(shí)隨地獲取相關(guān)的信息,第三個(gè)層面也是比較關(guān)鍵,性?xún)r(jià)比,如果從絕對意義上來(lái)講,大家很多是我們一體機的客戶(hù)一體機的客戶(hù),從絕對意義上來(lái)講,我們在結構化數據這個(gè)層面上,我們是可以采用一些更好的設備去滿(mǎn)足我們對這種海量數據的分析需求,我們舉個(gè)例子工行、建行都屬于我們一線(xiàn)銀行,在硬件這個(gè)曾經(jīng)面要投數據分析的設備,而我們有這個(gè),說(shuō)老實(shí)話(huà)在工行、建行這個(gè)企業(yè)上也受不了這樣一個(gè)投入,而在這個(gè)基礎上,我們如果狹義大數據的基礎上,確實(shí)有些方式讓我們整個(gè)性?xún)r(jià)比變得非常好,這也是我們一個(gè)非常要考慮的問(wèn)題,第四點(diǎn)我們的銀行其實(shí)現在科技部門(mén)越來(lái)越大,在這個(gè)領(lǐng)域上,所有的技術(shù)都是開(kāi)源的,無(wú)論我們是不是有商業(yè)的版本,他所有的最底層的技術(shù)全部是開(kāi)源的,如果我們的銀行,我們的客戶(hù)我們有些技術(shù)能力,甚至我們有些阿里的高端技術(shù)人員,底層技術(shù)的掌握跟我們的實(shí)力在自?xún)Γ覀儸F在逐漸要求我們每個(gè)銀行都自?xún)Γ谧詢(xún)慕嵌壬衔覀兛梢缘玫揭恍⿴椭瑥乃膫(gè)領(lǐng)域上我們看整個(gè)技術(shù)跟我們原來(lái)的方向是不太一樣的。

      狹義上的數據從現在的角度上來(lái)講,無(wú)論大家看到各種廠(chǎng)商包括我們自己也好,所有的基礎版本都是我們講Hadoop這個(gè)版本,它的建設Hadoop從我的角度來(lái)看,它實(shí)際上從技術(shù)上來(lái)講有幾個(gè)大的關(guān)鍵點(diǎn),第一個(gè)它是一個(gè)開(kāi)元式分布式的計算框架,它不是數據庫,Hadoop本質(zhì)上不是數據庫,只是我們在用的角度來(lái)講,更容易把它作為數據庫來(lái)用,常年在使用數據庫,作為底層角度來(lái)講它是分布式的計算框架,我們在某一些銀行,前不久在上海銀行做了一些網(wǎng)銀日志分析,半結構化的數據,查詢(xún)等等這樣的數據,大家可以看到我們在底層寫(xiě)的代碼全部都是我們JAVA的代碼,包括我們有一些人臉識別的技術(shù)都是不在底層的,它更多的是說(shuō)把我們原來(lái)在單機上運行或者高端服務(wù)上運行的東西放在了一些更廉價(jià)設備上做一個(gè)分布式的計算,它本意上它是分布式的計算框架,而且是開(kāi)元式的。第二它能解決的是海量數據的問(wèn)題,單機我們都可以用,但一到海量整個(gè)所有的性能跟所有的技術(shù)架構都是不一樣的,所以海量性能它是有它的優(yōu)勢,包括處理,在第四個(gè)層實(shí)施面線(xiàn)性擴展能力,在原來(lái)傳統意義上線(xiàn)性擴展是很難做的,我們要做很多HER等等相關(guān)的事情,很難做,而在這個(gè)領(lǐng)域上天生就會(huì )去考慮整個(gè)線(xiàn)性的擴展問(wèn)題,我們加一些設備性能會(huì )提升一倍兩倍三倍,總是有些方法去做。第四個(gè)也是我個(gè)人認為比較關(guān)系,我們有機會(huì )自己做一些基層研究,可以使用相對廉價(jià)的設備,目前為止我們現在在這個(gè)領(lǐng)域上用的機器從來(lái)不會(huì )用小型機或者更高級的,全部是PC服務(wù)器,如果在生產(chǎn)的環(huán)境上。而在更底層,完全可以用一個(gè)虛擬機,我們甚至可以用PC機,個(gè)人PC機都可以做這個(gè)事情,所以更廉價(jià)的設備達到我們原來(lái)要花很大精力去做的事情,這是它的性?xún)r(jià)比的問(wèn)題。

      從技術(shù)上很多核心的產(chǎn)品Hadoop,所有外圍的一圈,很亂的內容,我稍微描述一下,所有的都是圍繞著(zhù)這個(gè)核心最后做演變,等等內存的東西全部都是基于這個(gè)版本來(lái)做的。那我們簡(jiǎn)單講一下理論體系,大家聽(tīng)的很多,簡(jiǎn)單的講大數據本身它是一個(gè)業(yè)務(wù)的概念,而在我們的技術(shù)上更多是一個(gè)技術(shù)概念,所以我們跟我們的業(yè)務(wù)部門(mén)溝通的時(shí)候,其實(shí)不用去談Hadoop,更多的是如何去發(fā)揮用我們相對更廉價(jià)的設備,更好的方法去讓我們的業(yè)務(wù)價(jià)值更多的提升。

      再往下看一些應用,應該不會(huì )太講,但是我還是要把這個(gè)強調一下,在這個(gè)領(lǐng)域上我們更多是要挖掘所謂銀行業(yè)在應用的類(lèi)型,如果我們現在從廣義大數據的角度來(lái)看,其實(shí)它跟我們原來(lái)做數據分析并沒(méi)有太大的區別,如果從數據分析這個(gè)領(lǐng)域上銀行是固定的,我們該做的事情是固定的,剛才兩位領(lǐng)導都提到了,其實(shí)我們無(wú)非是在客戶(hù)管理、風(fēng)險、財務(wù)、運營(yíng)、監管等等去做相關(guān)的數據分析,而且這個(gè)業(yè)務(wù)是非常熟悉的,特別在銀行領(lǐng)域,我以前在跟別的企業(yè)去聊的時(shí)候,他們其實(shí)沒(méi)我們這么成熟,我們光把我們所有相關(guān)東西做完就要花很長(cháng)時(shí)間,只是說(shuō)大數據可能讓我們的效率更好,也可能讓我們花的代價(jià)更小,在這個(gè)領(lǐng)域上我們會(huì )做一個(gè)總體的,從業(yè)務(wù)上跟業(yè)務(wù)部門(mén)先打通。

      從具體來(lái)看,剛才領(lǐng)導也放了這張圖,從具體來(lái)看這實(shí)際上是國外頂級的,他會(huì )從業(yè)務(wù)和技術(shù)兩個(gè)層面來(lái)看我們在大數據到底能做什么事情,比如說(shuō)在業(yè)務(wù)領(lǐng)域上,我們有風(fēng)險管理的一套流程,我們在業(yè)務(wù)領(lǐng)域上有客戶(hù)分析,有客戶(hù)體驗,純技術(shù)上,我們有歷史數據存儲管理,運維優(yōu)化,結構化數據的存儲,以及包括我們整個(gè)數據挖掘的相關(guān)技術(shù),但事實(shí)上我們真正看下來(lái),我們一天跟客戶(hù)打交道,大家會(huì )提問(wèn)我們怎么實(shí)現,更多在兩個(gè)領(lǐng)域,第一個(gè)領(lǐng)域客戶(hù)分析與營(yíng)銷(xiāo),第二個(gè)領(lǐng)域是技術(shù)的歷史存儲與管理,更多的是在這兩個(gè)領(lǐng)域,原因很簡(jiǎn)單,因為客戶(hù)分析營(yíng)銷(xiāo),而且數據量是非常大的,極高的要求采用新的技術(shù)去解決我們原來(lái)的問(wèn)題,再細化,在座的有很多是信用卡領(lǐng)域的同事,也是因為它是零售,零售的客戶(hù)量很大,業(yè)務(wù)角度來(lái)講,我們更多是從業(yè)務(wù)角度看我們的技術(shù)如何為他們提供服務(wù),第二是科技,我們科技里面大行幾百個(gè)T,小行幾十個(gè)T,在這個(gè)領(lǐng)域上我們傳統數據庫真正花的代價(jià)比較大,包括性能,我的印象中我們的某些行都做不到T+1數據的架構,甚至T+2、T+3,我們的一些大行。其實(shí)在這個(gè)領(lǐng)域如果我們采用新的技術(shù)可以解決這個(gè)問(wèn)題,所以盡量問(wèn)一下,我們是否能用Hadoop這種技術(shù),包括狹義大數據解決歷史數據存儲管理的問(wèn)題,在兩個(gè)問(wèn)題上是我們一定要去研究的。

      其實(shí)這個(gè)過(guò)程我們做這些事情的過(guò)程是什么,大家看到最上面的這些東西一樣,跟我們做傳統數據是一模一樣的,數據采集、數據清理、數據存儲與管理,數據分析、數據展示,數據做應用,這跟我們原來(lái)實(shí)際上是一模一樣的,也有很多廠(chǎng)商,這些廠(chǎng)商我會(huì )簡(jiǎn)單介紹,在這些廠(chǎng)商里面,如果從狹義性來(lái)講,大部分都是Hadoop底層的平臺來(lái)做,文思海輝是什么定位,文思海輝是把我們更多的從采集到清理,到分析到數據顯化整個(gè)過(guò)程我們做一個(gè)綜合的整合,這是我們的一個(gè)整體文思海輝的定位。

      下面我就具體舉例子,從業(yè)務(wù)角度來(lái)講,技術(shù)實(shí)現是合適的模式。我們跟某個(gè)銀行一起合作做的這樣一個(gè)叫精準研究之LBS信用卡營(yíng)銷(xiāo),它是做什么的,真正意義上做地理位置信息和信用卡的綁定,包括未來(lái)做營(yíng)銷(xiāo)整套流程的東西,首先他做的第一件事情把地理位置跟客戶(hù)先做綁定,每個(gè)客戶(hù)在哪里,它的區域在什么地方,區域是什么樣子的,是高端小區還是低端小區,客戶(hù)屬性一個(gè)大的補充,同時(shí)我根據這些所有的相關(guān)屬性我把客戶(hù)分成ABC,某些客戶(hù)是要干什么事情,在這個(gè)領(lǐng)域上我們做第一件事情就是要把這些信息綁在一起,你們會(huì )發(fā)現我們就難了,我按照以前的做法如何把地理位置放在客戶(hù)屬性里面去,如何把這個(gè)客戶(hù)的周邊的關(guān)聯(lián)信息放在一起,我是我們很難做的事情,本身我可以把結構化,非結構化、半結構化所有的數據搭在一起,在這里天生的關(guān)聯(lián)在一起,在這個(gè)領(lǐng)域上經(jīng)常會(huì )使用這樣的技術(shù)。

      再往下看,我們一旦把客戶(hù)跟地理位置的信息綁定好,我們可以做什么事情,從業(yè)務(wù)的角度來(lái)講,社區銀行,特別是對我們中小銀行來(lái)講,社區化服務(wù)對我們是非常重要的,我們跟大行去競爭大的企業(yè)會(huì )比較難,我們在社區銀行包括營(yíng)銷(xiāo)區的選擇上,我們就可以做考量,我們是否要在一些高價(jià)值的客戶(hù),包括一些高的情況下去設計社區銀行,我們就可以做相關(guān)的事情。再往下你有的地理位置,你有客戶(hù)的信息,周邊的所有商戶(hù)你也知道,我們把所有的商圈做一些行為的分析,一個(gè)萬(wàn)達廣場(chǎng),萬(wàn)達的周邊到底有哪些商鋪,那些商鋪到底給哪些客戶(hù)提供價(jià)值,這個(gè)信息也是我們業(yè)務(wù)部,我們如何把這些信息獲取出來(lái)。最后我在這個(gè)商區里面發(fā)生一件事情,比如說(shuō)我在萬(wàn)達廣場(chǎng)的一家電影院里我買(mǎi)了一張電影票,到了7點(diǎn)鐘我的銀行就要求,形成主動(dòng)訴求,我要把周邊吃飯的打折信息發(fā)給他,這是真正營(yíng)銷(xiāo)的閉環(huán)思路,做這件事情大家看到我們業(yè)務(wù)既然會(huì )談的事情,站在技術(shù)角度怎么去做,這是我們事件營(yíng)銷(xiāo)典型的案例,這就需要非常綜合的方案,一二三四五六七八九畫(huà)了很多這樣一些圓圈,從這個(gè)圓圈來(lái)看,我們做這種事情,第一個(gè)我們剛才講的,我刷一張卡馬上短信告訴我,這叫什么,它都是一些流失的過(guò)程發(fā)過(guò)來(lái),在這個(gè)領(lǐng)域上我們要做什么,技術(shù)上我們要實(shí)時(shí)的解決方案,我們不能通過(guò)傳統的數據庫太慢,我同時(shí)有這么多人在刷卡,我們就會(huì )實(shí)時(shí)的解決方案。再往下我們有一個(gè)輸出,前面都是數據的第一步的獲取,再往下是我們傳統的我們要什么,我們做任何一個(gè)客戶(hù)的時(shí)候,我實(shí)際上是拿他的現實(shí)行為和他的歷史行為的對比,這時(shí)候歷史數據存哪里,典型的Hadoop大數據平臺上,必然算他的行為,算他的多樣屬性,模型算法,是他的歷史,我一定通過(guò)一個(gè)實(shí)際的響應和歷史數據這樣一個(gè)模式做一個(gè)混搭,最后才能把整個(gè)流程打通,而在這里傳統技術(shù)確實(shí)比較難做的,而在我們現在這個(gè)流程上很多流程都可以實(shí)現閉環(huán)。

      我們做的這個(gè)整個(gè)下來(lái),我們知道大概有流處理、后臺的大數據平臺,我們做的這個(gè)事情之后,數據平臺到底放什么數,剛剛講剛才那個(gè)案例的時(shí)候,我們做一個(gè)特偉大的事情就是客戶(hù)的屬性,我們不管叫做標準也好,叫做模型也好,或者叫客戶(hù)360度視圖也好,說(shuō)白了把人所有的延展周邊的全部打全,曾經(jīng)我跟我的同事,包括Hadoop團隊做了一件事情,我們把這個(gè)補的非常的全,我們從傳統意義上講基本信息、聯(lián)系信息、財務(wù)信息、關(guān)聯(lián)風(fēng)險、來(lái)往、管理信息管理意義上可能我們從銀行拿的到,但是很多拿不到,我在電信的消費記錄、我在網(wǎng)站的購物行為,以及包括我在某些地方去住一次店等等信息我都拿不到,我們從第一個(gè)角度來(lái)講所以要設計一個(gè)大而全的信息模型,在我們有機會(huì )的情況下,我們會(huì )把相關(guān)的數據把它買(mǎi)進(jìn)來(lái),或者怎么樣,去補全整個(gè)大圖,這里面的圖從另外一個(gè)角度定義,我有兩種定義,一種是比較簡(jiǎn)單可以獲取的,基本信息,固定死的,不要做任何計算,登記什么就是什么,他的聯(lián)系信息、財務(wù),包括我們在跟銀行的來(lái)往狀態(tài),交易行為,其實(shí)有很多是固定不了,包括客戶(hù)等級,貢獻度,我們的績(jì)效,這一類(lèi)是我們計算,在我們這個(gè)平臺里我們同時(shí)要滿(mǎn)足這兩個(gè)需求,一個(gè)所謂的固態(tài)需求,一個(gè)是靜態(tài)的,一個(gè)動(dòng)態(tài)的這兩種需求,我們都要滿(mǎn)足。

      在這個(gè)領(lǐng)域上,最后還有一場(chǎng)是數據挖掘的一場(chǎng),他待會(huì )兒會(huì )講在這個(gè)領(lǐng)域上我們在做計算的時(shí)候如何通過(guò)數據挖掘的技術(shù)把客戶(hù)的調查打的更漂亮,把客戶(hù)的規律更好,那里面就會(huì )有很多文本挖掘,自然處理,價(jià)格預測、推薦等等,它就會(huì )各種各樣的方式去把我們整個(gè)客戶(hù)的屬性做的更好,我們剛才講過(guò)的客戶(hù)信息,我自己老是在想這個(gè)問(wèn)題,我們到底在我的數據層面上,我們講阿里一天到晚吵著(zhù)要做銀行,小貸什么都有了,我們要做互聯(lián)網(wǎng)金融,我只能考慮到那么多,從最底層講,從數據層面講是有我的考量的,我個(gè)人認為從數據層面他們更多就是客人信息,我們現在很簡(jiǎn)單,如果銀行想去拿個(gè)人的消費記錄,真實(shí)的在干什么事情,而阿里很容易,反過(guò)來(lái)來(lái)講阿里想拿我們每個(gè)人絕對的資產(chǎn)信息,來(lái)往信息,到底我存了多少錢(qián),貸了多少款他是拿不到的,在這兩者上更多的是我們做客戶(hù)信息的綜合,誰(shuí)能把這個(gè)信息補的更全,誰(shuí)能把這個(gè)信息補的更全誰(shuí)一定會(huì )在整個(gè)客戶(hù)領(lǐng)域上會(huì )抓到更多的客戶(hù),這是我們一個(gè)大的考量。

      再往下看我們剛才講的客戶(hù)信息,客戶(hù)信息再往下其實(shí)是傳統基礎,我們索愛(ài)基礎的信息,還是有一個(gè)模型,我們當事人也好,機構也好,各個(gè)層面的協(xié)議也好等等,我們從這個(gè)考慮上我們一定要把所有的事情做一個(gè)混搭。再往下ETL數據抽取,這個(gè)領(lǐng)域上我們要看到一件事情并不是所有的數據都是好數據,而且數據轉換成我們相對使用的模型,原來(lái)經(jīng)常講大數據把所有的數據往里一丟就結束了,我們使用的過(guò)程中ETL還是很重要的,而且在這個(gè)領(lǐng)域上現在有很多的方式跟方法,在這里面我們獲取也好,抽取也好,轉換也好,我們有固定的流程和方式去做相關(guān)的內容。

      再往前看就是大數據來(lái)源,我其實(shí)這個(gè)議題特別不好講的原因是這樣的,我們數據來(lái)源大部分來(lái)自于我們自身,但如果說(shuō)我們真的是,還是給大家一個(gè)建議,如果做的好一定要來(lái)自你的外部,一旦涉及到你的外部之后,所有數據量的行為是不一樣的,很簡(jiǎn)單的,社交網(wǎng)絡(luò )一定是PB級,我們任何一個(gè)客戶(hù)在網(wǎng)絡(luò )上所有的事情一定是PB級,而不像我們現在銀行里面大部分,如果從結構上來(lái)講大部分都是TB級,包括整個(gè)移動(dòng)也是PB級,包括一些外部數據源的獲取,這些東西都是更大數據量,用傳統技術(shù)那幾乎是沒(méi)有辦法解決的,在這個(gè)領(lǐng)域上我們要考量,如果我們要涉及到外部數據獲取的時(shí)候我們是要考量,正兒八經(jīng)要采用所謂大數據相關(guān)的技術(shù)。

      這里舉了一個(gè)案例,剛剛講的業(yè)務(wù)案例今天時(shí)間有限,我不能講的更細,數據庫的替代,這個(gè)不是我做的,這是我一個(gè)朋友做的,原來(lái)是有一個(gè)一體機這樣的設備,8個(gè)小時(shí)才能完成每日的處理,做一件事情,我們將耗時(shí)所有超長(cháng)的任務(wù),7、8個(gè),其實(shí)就是最長(cháng),是影響我整個(gè)數據倉庫最長(cháng)線(xiàn)路的任務(wù),然后大量解決了這個(gè)問(wèn)題,從這個(gè)案例角度來(lái)講,并不是它說(shuō)現在我們說(shuō)大數據完全可以替代數據倉庫,因為它從它的成熟度,包括穩定性,包括用戶(hù)接口來(lái)講還并沒(méi)有達到那么完整,但是一些底層低價(jià)值的數據,包括一些大量數據加工的情況下,它可以做一些替換,而且這里面的一些技術(shù)都是可以,現在完全可以達到價(jià)值認證。

      除了我剛才講的那些理論以外,外面一大圈就是剛才咱們講的數據管控,永遠我們有一個(gè)議題是說(shuō)大數據還是做數據分析,在這個(gè)領(lǐng)域上我們整個(gè)數據管控包括數據標準源數據、數據質(zhì)量都是可以得到的相關(guān)的驗證,特別是在源數據,因為大家講過(guò),我們數據走了一個(gè)緯度,站在IT角度如何運維,如果作為整條線(xiàn)來(lái)調,如果會(huì )把來(lái)數據作為第一個(gè)領(lǐng)域,把我整個(gè)線(xiàn)路上所有的數據鏈路找到,在這個(gè)領(lǐng)域上會(huì )更關(guān)注源數據在大數據領(lǐng)域的建設,而且相對來(lái)說(shuō)比較偏技術(shù),我們用很多的方式來(lái)做。

      最后我們來(lái)討論的問(wèn)題是數據使用安全,這個(gè)更頭疼,其實(shí)這個(gè)東西是有很多考量的,特別是在我們的一些領(lǐng)導層的考慮上,比如說(shuō)其實(shí)在國外,好好的去研究了一下國外對數據安全的領(lǐng)域,其實(shí)在國外是有法律,包括隱私法、電子通訊法,包括信息記錄法,在國外有很多法律,在國內是一片空白,在這個(gè)領(lǐng)域上更多的考慮不是這個(gè)方面,而是我們記錄上安全性的考慮,我們在銀行上,我們如何保證我們的數據不被外面的數據獲取,這個(gè)考慮的更多。

      講了典型應用,我剛剛講了兩個(gè)層面的應用,一個(gè)是比較新的業(yè)務(wù)層面的創(chuàng )新性,一個(gè)是傳統數據庫替代的應用,這樣來(lái)看,我們就要看從科技角度看,我如何看大數據的記錄體系,這是我們一個(gè),應該是我們已經(jīng)做過(guò)一些修改,并且加工整個(gè)的技術(shù)信息,中間是我們整個(gè)Hadoop的基礎,里面東西非常廣,坦誠的講到現在我還沒(méi)有能把整個(gè)Hadoop所有的開(kāi)元跟所有的相關(guān)內容全部了解到,因為這個(gè)領(lǐng)域的發(fā)展特別快,我前兩天還跟一個(gè)做數據挖掘的同學(xué)談,我說(shuō)數據挖掘比如說(shuō)R,我的算法能不能直接部署在Hadoop平臺上,當時(shí)他跟我講不行,大概是半年前,現在我們所有的數據挖掘算法挖掘可以直接部署在Hadoop平臺上,直接用并行的方式做,這個(gè)領(lǐng)域發(fā)展特別的快,而且在這個(gè)領(lǐng)域上像我們的廠(chǎng)商,包括IBM也好,相應的發(fā)行方也在發(fā)揮變化,這個(gè)領(lǐng)域上是解決了我們第一個(gè)大的問(wèn)題,就是我們數據存儲的管理,外圍圈其實(shí)都是尋求各路,包括我們自己,我們在里面做了很多研究,在哪幾個(gè)層面,第一搜索不行,本身意義上跟搜索一點(diǎn)關(guān)系沒(méi)有,所以從搜索引擎這個(gè)角度來(lái)講,文思海輝在這里面有些企業(yè)我們做了一些項目,把搜索引擎做的比較大。第二數據的集成運行,我們有這么多開(kāi)元的數據,各種各樣多樣的數據,我們數據如何在這里做集成,如何轉換,其實(shí)也沒(méi)有統一的規范,文思海輝也是采用了,我們團隊采用了相關(guān)的技術(shù)去把技術(shù)引擎單獨拎成一塊,第四離線(xiàn)分析引擎,因為數據量太大,我們必須要把數據在晚上算好,當天晚上生成報表,當天晚上生成一些業(yè)務(wù)接口,跟我們的數據做一些結合,把數據分批分量分發(fā)給各個(gè)地方,我們會(huì )有離線(xiàn)分析。

      第四也是非常重要的,實(shí)時(shí)替換引擎,在我們這個(gè)地方剛才講過(guò)了,其實(shí)真正意義的大數據是讓你做業(yè)務(wù)創(chuàng )新的,不是讓你做數據庫替代,原來(lái)我們實(shí)施非常少,在這個(gè)領(lǐng)域上,實(shí)時(shí)替換引擎也是一定要研究跟探討的。另外兩個(gè)領(lǐng)域,整個(gè)系統安全,在銀行很講系統安全,其實(shí)我們在互聯(lián)網(wǎng),我相信跟各位銀行也接觸過(guò)很多,但事實(shí)上我們在互聯(lián)網(wǎng)領(lǐng)域,阿里去過(guò)很多次,每次問(wèn)到這個(gè)數據安全管理的時(shí)候,下面的人回答都是相對欠缺的,他們在這方面的考慮并沒(méi)有銀行這個(gè)體系要求那么嚴格,包括這么多集群的調配、監控、日志管理等等這個(gè)方面,文思海輝都要在這里面做更多的努力,包括Hadoop安全的管理。

      再往下就是我們整個(gè)解決方案,這個(gè)是一個(gè)發(fā)行版,這里面更多跟大家講一個(gè)建議,因為站在我們科技研究,比如說(shuō)我們互聯(lián)網(wǎng)也好,包括我們自己研究,更多的是用一些開(kāi)元的產(chǎn)品,比如說(shuō)Hadoop延伸,事實(shí)上在這個(gè)領(lǐng)域上,如果我們針對銀行,我還是建議我們用一些發(fā)行版本,我們也做過(guò)大量的POC,跟大量的測試,你會(huì )發(fā)現在他們這些版本里面,他們把相關(guān)引擎的Bug,包括一些系統的解決了,針對這個(gè)測試性,我會(huì )發(fā)給大家。

      再往下我們還是要設計整體架構,這跟我們原始項目是非常像的,原系統,數據交換平臺,大數據平臺,分析應用平臺,這個(gè)其實(shí)沒(méi)有畫(huà)全的,這個(gè)是為誰(shuí)做的,為中行做的,中行沒(méi)有數據倉庫,我們現在計劃可能想把他們幫ODS方面去努力一下。這個(gè)跟大家講一個(gè)核心點(diǎn),絕對不能把大數據平臺,這是我的理念包括總公司理念,不能把后面做一個(gè)簡(jiǎn)單的ODS或者簡(jiǎn)單的數據存儲這樣一個(gè)概念的東西,而更多的要應用它的技能性,所以我們做兩件事情,除了建所謂的接口層,我們會(huì )把共性加工層和部分口徑跟邏輯移植到大數據平臺,我們有一個(gè)非常大的團隊,大概在華東大數據,專(zhuān)門(mén)做的事情是什么,把我們原來(lái)在數據倉庫ODS里面做的業(yè)務(wù)加工口徑去翻譯成現在做的,直接翻譯成Hadoop上做的,我們更多強調的是,在這個(gè)領(lǐng)域我們的架構上跟原來(lái)的架構很相似,更多是把能做計算的部分移植到下面來(lái)做。

      在更細節,里面有很多小的細節,今天我不會(huì )細說(shuō),包括數據獲取,實(shí)時(shí)的獲取,非實(shí)時(shí)的獲取,里面有很多的組建,包括類(lèi)似管理,包括驗證,這都是我們要關(guān)注相關(guān)的地方,以及對外我們以及要梳理庫的這種模式,對我們的應用做訪(fǎng)問(wèn)。再講一個(gè)議題,這個(gè)可能就講的更要一點(diǎn),就是跨界整合文思海輝的努力,先講第一個(gè),這個(gè)實(shí)際上我們賈總講的比我更清楚一些,目前為止文思海輝其實(shí)作為一個(gè)所謂的服務(wù)商,或者這樣的一個(gè)中介商,我們其實(shí)也是在探討在這個(gè)領(lǐng)域上如何和別人合作,我們其實(shí)在電信運營(yíng)商做了很多探討,其實(shí)電信運營(yíng)商,大家知道我們所有人的手機,其實(shí)也包括移動(dòng),里面也有相關(guān)的屬性要去拿的,包括覆蓋的范圍,包括種類(lèi),包括體量相關(guān)的一些東西,這個(gè)東西是有一個(gè),我們對他們數據的渴求。我可以告訴大家其實(shí)現在在整個(gè),我更了解浙江,浙江移動(dòng)有一個(gè)專(zhuān)門(mén)叫大數據運營(yíng)平臺,已經(jīng)把所有的數據,所有的話(huà)單數據消費記錄等等放在一個(gè)真的大數據平臺里面,但是他們沒(méi)有把那個(gè)數據對外去宣傳或者使用,他也找不到更合適的廠(chǎng)商幫他們服務(wù),最近我們其實(shí)也在跟他們談,我們想借助這樣一個(gè)力量,把我們的力量代入,我們更了解銀行,他需要什么樣的數據,我們也做嘗試,做一些相關(guān)融合的工作,這是一個(gè)探討,我們有我們相對的定位,電信有他們的數據,銀行有需要,訪(fǎng)問(wèn)也是一樣,我們可能做一個(gè)服務(wù)商在技術(shù)層面上,在這個(gè)層面做引進(jìn)。

      第二個(gè)領(lǐng)域其實(shí)是人才的培養,今天我請了幾個(gè)專(zhuān)家跟老師過(guò)來(lái),也是有原因的,我們跟IBM做了這樣一個(gè)計劃,IBM有這樣一個(gè)計劃,我們會(huì )做一個(gè)整個(gè)三層次的人才培養計劃,第一個(gè)層次就是跟合作伙伴共同培養相關(guān)的人才,第二個(gè)領(lǐng)域是跟教育機構,第三個(gè)直接培訓一些老師,我們在第一個(gè)領(lǐng)域做合作,IBM在中科院大學(xué)已經(jīng)開(kāi)了一個(gè)所謂大數據人才培養班,叫智慧金融,我們在這種領(lǐng)域上做合作,很快我們就會(huì )在華東包括華南也會(huì )跟一些學(xué)校談這個(gè)合作,除了剛剛講的技術(shù),講一下架構以外,我們把人才后備力量建立起來(lái),這也算給大家做個(gè)預告,很快我們會(huì )把人才的培養體系建立起來(lái)。

      最后簡(jiǎn)單講一下文思海輝大數據的努力,先從技術(shù)上講,文思海輝做了這么幾個(gè)東西,第一個(gè)數據集成,我們做集成,包括ETL等等相關(guān)的,第二Hadoop本身的搭建,包括發(fā)行版本,包括原形版本,我們都會(huì )做很大的搭建,基礎構建的搭建,第三個(gè)流數據的處理,我們講過(guò)注重很多實(shí)時(shí)的行為,流數據的處理,包括我們跟數據倉庫的融合這是我們的老本行,老本行的融合,包括我們整個(gè)管控的能力。再往下看分成幾個(gè)類(lèi)別,第一類(lèi)別是大數據方案的整個(gè)規劃設計,由于我們原來(lái)有倉庫的經(jīng)驗,大家也看到我們其實(shí)在做數據分析,只是換了不同的技術(shù),我們未來(lái)整個(gè)大數據方案的規劃幫各位客戶(hù)設計好,第二個(gè)層面分析,等會(huì )兒就會(huì )講到,我們在這個(gè)領(lǐng)域上更多的模型、算法、預測,分公司計算的公式等等也好,我們有相關(guān)的人去做相關(guān)的工作,第三是我們整個(gè)運營(yíng)的優(yōu)化,如果我們有了一些大的平臺,上面要做很多的調優(yōu),包括相關(guān)工作,這也是文思海輝現在主要在做的工作,第四所謂包裝好的一個(gè)成熟的業(yè)務(wù)應用,包括整個(gè)分析智能化,包括實(shí)時(shí)數據倉庫,整體解決方案我們也會(huì )提供,我們主要在四個(gè)領(lǐng)域去努力。

      最后提一些小的建議,第一個(gè)其實(shí)剛剛講那么多,我們還是要有一些方向上的選擇,第一個(gè)就是技術(shù)方向選擇,這個(gè)是我們嘗試去做所謂的技術(shù)規劃的數,到底什么時(shí)候應該去用大數據平臺,我們就在數據類(lèi)型、處理能力,包括數據量,包括響應時(shí)間,包括集成包括分析種類(lèi)這個(gè)層面上我們做了這樣一個(gè)決策,我們希望通過(guò)這樣的模式能讓我們的客戶(hù)更加清晰認識到我們在做任何一個(gè)業(yè)務(wù)場(chǎng)景,拿到一個(gè)業(yè)務(wù)需求的時(shí)候,我們任何采用什么樣的技術(shù),我們做了這樣的形式。

      另外一個(gè)角度來(lái)講,我更多談一下我的感受,第一個(gè)行業(yè),相信互聯(lián)網(wǎng)銀行沖擊很大,我給大家講一個(gè)故事,也是有一次我應該是在同濟大學(xué)上課,跟別人也是聊大學(xué)里的東西,下面有一個(gè)學(xué)生問(wèn)我,你剛剛講過(guò)數據質(zhì)量,我跟你剖析一下數據質(zhì)量體系,聽(tīng)他來(lái)講數據管控一定會(huì )講數據質(zhì)量,他就跟我講了半天,他講的是什么,他講的是工程質(zhì)量的控制,噪點(diǎn)控制,我從這個(gè)案例跟大家講,其實(shí)在這個(gè)行業(yè)里面,包括大數據,包括數據分析非常具有行業(yè)專(zhuān)業(yè)性,如果是一個(gè)外部公司,或者一些外部的廠(chǎng)商介入還是有一定的難度,因為他必須要了解清楚,必須要了解我們在銀行里面需要什么樣的數據,我們需要做什么樣的分析,這是第一個(gè)。第二從技術(shù)上來(lái)講,我們更要注重在這個(gè)領(lǐng)域上其實(shí)真正還沒(méi)有達到一個(gè)完全的標準跟規范,所有的技術(shù)是要革新一樣每天都在變化,今天會(huì )冒一家公司,明天會(huì )冒一家公司做相關(guān)的事情,而且在技術(shù)上不是你想象的那么簡(jiǎn)單,在這個(gè)領(lǐng)域上我覺(jué)得對我們自己本身,第一個(gè)我們要做的是要了解本事,我們不能大量的采用所謂的包裝型的產(chǎn)品也好,獲得相關(guān)的開(kāi)元工具也好,我們更要內部的經(jīng)營(yíng),我們在我們公司里更多強調的是,我們要從技術(shù)研究來(lái)講,我們一定看底層使用的層面上,我們會(huì )把周邊的整個(gè)打通,在整體架構設計上,我們一定要有更好的考量,我今天就講這么多,謝謝各位。

    錯誤報告  分享到:
    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 兴宁市| 垣曲县| 临夏县| 南丹县| 广东省| 金山区| 崇左市| 临汾市| 梁山县| 白朗县| 九寨沟县| 温宿县| 彩票| 琼中| 潼关县| 博兴县| 海宁市| 呼和浩特市| 贺兰县| 筠连县| 密山市| 墨玉县| 绩溪县| 荃湾区| 梁山县| 绥江县| 临西县| 江油市| 左权县| 石棉县| 苗栗县| 清水河县| 清镇市| 革吉县| 商洛市| 垣曲县| 中阳县| 弋阳县| 巫山县| 凭祥市| 广丰县| http://444 http://444 http://444 http://444 http://444 http://444