具有“大數據時(shí)代預言家”之稱(chēng)的維克托·邁爾曾經(jīng)在自己的著(zhù)名論著(zhù)《大數據時(shí)代》中預言——物聯(lián)網(wǎng)(IOT)技術(shù)的發(fā)展將極大地改變傳統數據存儲分析領(lǐng)域。這就難怪有那么多的公司正試圖投身物聯(lián)網(wǎng)大潮。據麥肯錫全球研究院的最新報告顯示:到2025年,物聯(lián)網(wǎng)行業(yè)的總營(yíng)收將達6.2萬(wàn)億美元。
但正如維克托擔心的一樣——這些弄潮兒們真的為物聯(lián)網(wǎng)將造就的大數據時(shí)代做好準備了嗎?
當然,除了技術(shù)層面的考慮,安全問(wèn)題也不容忽視。但是,筆者更關(guān)心的是:全球大多數的數據中心(包括那些專(zhuān)門(mén)非盈利性的數據存儲和分析機構)對由物聯(lián)網(wǎng)即將帶來(lái)的海量數據似乎毫無(wú)準備。
當然有一些科技公司仍然堅持認為自己完全有能力管理好自己的數據中心,但是當數據量以PB或者EB為單位增加時(shí),不知道這些公司是否還認為筆者庸人自擾?如果依舊固執己見(jiàn),那么他們就不得不對相應的基礎設施進(jìn)行大筆的投資。而相對聰明的公司會(huì )選擇業(yè)界領(lǐng)先的云存儲公司作為自己的戰略同盟。所以,由物聯(lián)網(wǎng)引起的大數據潮流將會(huì )助推云存儲和云計算的發(fā)展。
物聯(lián)網(wǎng)產(chǎn)生的大數據處理過(guò)程可以歸結為三個(gè)基本步驟:數據采集、數據存儲和數據分析。數據采集和存儲是基本的功能,而大數據時(shí)代真正的價(jià)值蘊含在數據分析中。對于大數據時(shí)代的到來(lái),有專(zhuān)家曾經(jīng)估計有半數以上的大數據公司可能夭折,而原因是他們未能掌握數據采集相關(guān)技術(shù)。當然也并不是說(shuō)過(guò)了數據采集這個(gè)難關(guān)就可以萬(wàn)事大吉,接下來(lái)在數據存儲方面仍有一連串的挑戰。比如,公司必須掌握如分布式計算、并行計算等先進(jìn)的存儲計算方法。
2009年,甲型H1N1流感病毒肆虐全球。與流感病毒傳播速度相比,美國政府對流感病例的申告制度顯得效率低下。這時(shí)候人們才重新注意流感病毒爆發(fā)前幾周,谷歌公司幾位工程師在《Nature》上發(fā)表的一篇文章。在文章中,谷歌公司通過(guò)對全美境內5000萬(wàn)條最頻繁檢索的詞條和美國疾控心公布的季節性流感傳播數據進(jìn)行比較發(fā)現:在未來(lái)一段時(shí)間很可能爆發(fā)一次大規模的流感疫情,而且清楚預測出了具體的地區和州。最后疫情爆發(fā)的時(shí)候,疾控中心驚訝地發(fā)現谷歌公司的預測竟然與疫情爆發(fā)地精準吻合。所以,對于大數據時(shí)代而言真正的意義在于數據分析。
數據分析的挑戰還在于將新的物聯(lián)網(wǎng)數據和已有的數據庫整合。iDoNews認為,有兩個(gè)方面最令人頭疼。首先,軟件方面——原來(lái)的數據庫與物聯(lián)網(wǎng)數據庫之間使用的存儲方法不同,這時(shí)候就要求公司不得不靠大量的人工重新定義原來(lái)的海量數據。第二,硬件方面——兩種數據庫之間所使用硬件介質(zhì)(服務(wù)器、磁盤(pán)等存儲介質(zhì)和網(wǎng)絡(luò )等基礎設施)不同,這將導致公司需要進(jìn)行更大規模的基礎設施建設。
這時(shí)候如果還有公司想靠自己一方的努力管理本公司數據,那無(wú)疑是作死。
為此,真正有眼光的企業(yè)可以采用如下三種方案:
第一種,也是最流行的方式——利用成熟的第三方數據庫服務(wù)(DBaaS),如亞馬遜的Redshift。這種模式的優(yōu)勢在于,客戶(hù)公司不需要具備安裝、管理和運行任何大型數據庫的經(jīng)驗和技術(shù)。
第二種,利用大數據托管服務(wù)。托管服務(wù)供應商(MSP)將負責數據收集、數據庫管理并提供進(jìn)行分析和提取數據集的服務(wù)。這種模式不僅使企業(yè)專(zhuān)注于其商業(yè)價(jià)值所在的數據分析而將一些較難處理的事情外包,而且還使企業(yè)用戶(hù)無(wú)需大量先期投入就可以快速進(jìn)入大數據應用的市場(chǎng)化階段,同時(shí)也解決了很多企業(yè)在該領(lǐng)域的技術(shù)短缺。
第三種,基于云計算的數據庫矩陣解決方案。這種模式主要針對那些具有多種不同類(lèi)型、甚至非聯(lián)系型數據庫的公司。這些公司通常要求數據存放于多個(gè)數據中心,并且既存于公共端也可能存在私有的云端。公司不僅要求不同類(lèi)型數據庫的解決方案,而且對自身的大數據也有不同的應用需求。美國主機服務(wù)商ServePath下的GoGrid云計算平臺正致力于這種數據庫管理服務(wù)。
物聯(lián)網(wǎng)的價(jià)值在于其數據,而物聯(lián)網(wǎng)帶來(lái)的史無(wú)前例的數據規模將驅動(dòng)現在的數據服務(wù)企業(yè)發(fā)生根本性改變,這要求企業(yè)調整其大數據戰略。
等著(zhù)瞧吧,物聯(lián)網(wǎng)必然催生出大數據管理領(lǐng)域的大贏(yíng)家。