每天,我們都在創(chuàng )建難以估算的海量數據。現在全球90%的數據都是過(guò)去兩年間產(chǎn)生的,這些數據來(lái)源廣泛,包括氣象信息收集傳感器、社交媒體內容、在線(xiàn)數碼照片和視頻、在線(xiàn)交易記錄及手機GPS信號等。這種類(lèi)型的數據被稱(chēng)為多結構化數據,也就是通常所指的大數據。值得注意的是,大數據可以根據其結構的復雜性和多樣性來(lái)定義。
每天,各種網(wǎng)站都能產(chǎn)生大量TB數量級復雜的原始數據,收集了消費者的瀏覽及購買(mǎi)習慣,因此也被稱(chēng)為交互數據。在分析準備中,將這些網(wǎng)絡(luò )日志轉化和提煉,將最終分析出客戶(hù)偏好。通過(guò)整合及應用數量龐大、類(lèi)型復雜的數據,將實(shí)現客戶(hù)信息的深度洞察。此外,通過(guò)整合客戶(hù)的交易信息數據,將獲得支持營(yíng)銷(xiāo)活動(dòng)的觀(guān)點(diǎn),確保在正確的時(shí)間,將適當的促銷(xiāo)信息提供給需要的消費者。
顯而易見(jiàn),數據的絕大部分是多結構化數據,或者是多種不同格式的數據。我們大量的工作時(shí)間用于閱讀或者回復郵件,撰寫(xiě)報告或文章,進(jìn)行交談,收聽(tīng)直播或者錄音資料。顯然,這些都是產(chǎn)生多結構化數據的情形。這種數據不僅帶來(lái)挑戰,同時(shí)也是通過(guò)新興類(lèi)型數據形成洞察力的機會(huì ),確保業(yè)務(wù)更加靈活,解決過(guò)去和未來(lái)存在的挑戰。
此外,多結構化數據環(huán)境將帶來(lái)新的挑戰和機遇,利于分析、管理和控制現有系統和新渠道產(chǎn)生的大容量、高增長(cháng)、易變化且復雜的數據信息。多年以來(lái),企業(yè)已經(jīng)身處這種環(huán)境,應對來(lái)自網(wǎng)絡(luò )互動(dòng)、移動(dòng)設備、社會(huì )媒體、機器數據及其他來(lái)源的新型信息。
目前,只有最大規模及專(zhuān)注于數據分析的公司擁有時(shí)間、資源和工具進(jìn)行大數據分析。但是,更多的公司將能夠順利應用可擔負的數據倉庫系統,從新信息源中獲取珍貴的戰略性觀(guān)點(diǎn),以前所未有的速度支持業(yè)務(wù)創(chuàng )新。
海量數據帶來(lái)極致痛苦?
隨著(zhù)數據源呈現指數級增長(cháng),信息的數量及復雜程度快速擴大,從海量數據中提取信息的能力正快速成為戰略性的強制要求。2011年4月,Gartner集團發(fā)布了《大數據僅僅是海量信息管理的開(kāi)端》報告。報告稱(chēng):“對大數據的關(guān)注展現了最主要的挑戰,這些挑戰將重構現有的信息管理實(shí)踐和技術(shù)。管理海量數據的能力將成為企業(yè)的核心競爭力,確保企業(yè)能夠持續使用新型信息(文本、社交網(wǎng)絡(luò )、環(huán)境)發(fā)掘支撐業(yè)務(wù)決策的模式(基于模式的戰略)。”
釋放創(chuàng )新能力
為站在不斷發(fā)展的信息浪潮之尖,企業(yè)必須尋求大數據分析方案,擴展從集成數據倉庫獲得的知識資產(chǎn)。但是,大部分集成數據倉庫尚未納入來(lái)自網(wǎng)絡(luò )日志及社交媒體高達80%的多結構化數據。
其實(shí),大數據的挖掘和分析并非僅應用在營(yíng)銷(xiāo)領(lǐng)域。部分高精度加工企業(yè),如半導體和醫藥領(lǐng)域企業(yè),也正面臨著(zhù)海量數據壓力,期望通過(guò)存儲并分析這種數據,制定出更佳的業(yè)務(wù)決策。而且,更大的期待是通過(guò)理解運營(yíng)和制造中的問(wèn)題,以及提供更好的用戶(hù)體驗。通過(guò)收集、存儲和分析所有的多結構化數據,將有助于輕松實(shí)現這些宏偉愿望。