• <strike id="fdgpu"><input id="fdgpu"></input></strike>
    <label id="fdgpu"></label>
    <s id="fdgpu"><code id="fdgpu"></code></s>

  • <label id="fdgpu"></label>
  • <span id="fdgpu"><u id="fdgpu"></u></span>

    <s id="fdgpu"><sub id="fdgpu"></sub></s>
    您當前的位置是:  首頁(yè) > 資訊 > 文章精選 >
     首頁(yè) > 資訊 > 文章精選 >

    數據湖是什么?它會(huì )持續"溫而不火"還是即將"破繭成蝶"?

    2019-08-08 09:40:15   作者:張彥龍   來(lái)源:CTI論壇   評論:0  點(diǎn)擊:


      一、概述
      自2014年開(kāi)始,data lake(數據湖)這個(gè)概念就出現了,一直持續發(fā)展,雖然各大云商也相繼推出了自己的產(chǎn)品,如Amazon AWS、Google Cloud、Microsoft Azure等,但數據湖的發(fā)展可以用“不溫不火”來(lái)形容。
      這篇文章,帶大家一探data lake為何物,為何有機會(huì )發(fā)展,而又鵝行鴨步背后有何邏輯!
      Data lake到底是什么?面對如此簡(jiǎn)單的一問(wèn),江湖各家大廠(chǎng)家卻是各執一詞,撲朔迷離。各家的思路基本上就是把已有的基礎產(chǎn)品再包裝,形成非面向業(yè)務(wù)場(chǎng)景的松散解決方案。
      如Amazon AWS把data lake包裝為: S3存儲、數據目錄、數據冷備;并輔之以數據移動(dòng)工具、數據分析工具、機器學(xué)習工具。
      而部分廠(chǎng)商更愿意把它定義為hadoop本身…
      既然沒(méi)有明確的功能定義,從理論層面探索data lake就變的沒(méi)什么實(shí)際意義了,這也是市場(chǎng)在這上面踟躕不前的一個(gè)原因,這玩意到底是啥都說(shuō)不清,憑什么給你錢(qián)?
      那咱們就轉換下思路,追本溯源,從大數據的發(fā)展歷程來(lái)看下data lake的產(chǎn)生的必要性、以及有無(wú)壯大的原動(dòng)力。
      二、回首傳統數據倉庫(Data warehouse)
      從業(yè)務(wù)流程上,傳統data Warehouse是從數據需求(問(wèn)題)角度出發(fā),甄選業(yè)務(wù)場(chǎng)景數據源、按照數倉庫范式清洗與建模、并按照主題還原為可信的業(yè)務(wù)過(guò)程后,給業(yè)務(wù)方重復使用,也就是所謂的數據集市(data Mart)。
      總結下來(lái)傳統數倉的理念還是管控:管控數倉架構、管控數據流向、管控業(yè)務(wù)場(chǎng)景。
      從data Warehouse數據流動(dòng)角度看,整個(gè)流程如下:
      三、傳統數據倉庫面臨的挑戰
      隨著(zhù)公司快速發(fā)展,面臨的幾個(gè)矛盾
      data mart模式導致的煙囪式建設與數據需跨業(yè)務(wù)線(xiàn)廣泛連接之間的矛盾
      數據ETL、數據建模工作的響應速度與數據反哺業(yè)務(wù)迭代創(chuàng )新之間的矛盾
      數據賦能與業(yè)務(wù)場(chǎng)景探索的脫節
      通過(guò)上面的闡述,稍作抽象,即可發(fā)現一個(gè)有趣的現象:
      工作職責上, 更多數據工作正在從IT向DS(數據科學(xué)家,下同)過(guò)渡,IT傾向于與DS解耦
      工作方式上,在 數據從輔助決策向驅動(dòng)決策升級的過(guò)程中,工作模式從"提出問(wèn)題(DS)-解決問(wèn)題(IT)"逐步向"場(chǎng)景化的泛?jiǎn)?wèn)題-分析數據提出具體問(wèn)題-分析數據-解決具體問(wèn)題"的工作方式轉換
      在這個(gè)背景下,為了解決這些問(wèn)題,業(yè)界發(fā)起了對data lake使命和架構的的探討…
      四、什么是Data lake
      注:為了維持定義的精確性,下面幾段簡(jiǎn)單的英文就不做翻譯了,敬請諒解 :)
      從Amazon AWS得到的解釋
      A data lake is a centralized repository that allows you to store all your structured and unstructured data at any scale. You can store your data as-is, without having to first structure the data, and run different types of analytics—from dashboards and visualizations to big data processing, real-time analytics, and machine learning to guide better decisions.
      從維基百科得到的解釋
      A data lake  is a system or repository of data stored in its natural format,usually object blobs or files. A data lake is usually a single store of all enterprise data including raw copies of source system data and transformed data used for tasks such as reporting, visualization, analytics and machine learning.
      A data lake can include structured data from relational databases (rows and columns), semi-structured data (CSV, logs, XML, JSON), unstructured data (emails, documents, PDFs) and binary data (images, audio, video).
      受到的質(zhì)疑與挑戰
      One criticism about the data lake is that the  concept is fuzzy and arbitrary. It refers to any tool or data management practice that does not fit into the traditional data warehouse architecture.
      簡(jiǎn)單而言,data lake就是有一個(gè)中心化的存儲,所有的數據以它本來(lái)的形式(來(lái)自RMDB的結構化數據、CSV/JSON/XML等半結構化數據、documents等非結構化數據、甚至image/audio等二進(jìn)制數據)都放到這個(gè)存儲里, 進(jìn)而為后續的報表、可視化分析、實(shí)時(shí)分析、以至于機器學(xué)習提供數據支撐。
      五、Data lake架構
      為了應對傳統數據倉庫面臨的問(wèn)題,業(yè)界給出了不同的解決方案,下面的軸輻式(Hub and Spoke)架構也是其中之一:
      HUB(軸)要解決的問(wèn)題:
    • 統一存儲:Centralized, singular, schema-less data store with raw (as-is) data as well as massaged data
    • 索引與檢索數據:Ability to map data across sources and provide visibility and security to users, Catalog to find and retrieve data
    • 數據安全:Ability to manage security, permissions and data masking
    • 自助服務(wù):Supports self-provisioning of data management, and analytic tools without IT intervention
      SPOKE(輻條)需要解決的問(wèn)題:
    • 支持業(yè)務(wù)團隊以自助服務(wù)的形式處理數據的可視化、數據探索、數據協(xié)作等業(yè)務(wù)問(wèn)題
    • IT團隊提供相應工具鏈、安全沙箱、標準化數據服務(wù)等基礎設施
      六、數據架構的演進(jìn)趨勢
      大數據為了賦能業(yè)務(wù),從數據基礎建設、業(yè)務(wù)快速迭代兩個(gè)角度來(lái)看,數據和組織架構正以下面的方式演進(jìn):
      特別說(shuō)明:上圖并非說(shuō)IT/ETL的需求變少了,而是為了說(shuō)明DS的業(yè)務(wù)需求和能力需求變的更多和更強了。
      七、一道鴻溝
      這么一弄,問(wèn)題就來(lái)了,即使一個(gè)良好定義的數據倉庫,在數據檢索、理解上都存在相當的難度,這種原汁原味存放原始(非結構化)數據的地方,用戶(hù)如何檢索數據呢?怎么理解這些原始數據的業(yè)務(wù)含義呢?隨著(zhù)數據量的膨脹,這個(gè)問(wèn)題會(huì )愈演愈烈,直到變成數據沼澤。
      data lake絕不是一個(gè)簡(jiǎn)單的把原始數據以它原有的樣子放到一起,用戶(hù)就可以happy的進(jìn)行可視化、洞察和分析的,因為這和他們需要的這些服務(wù)之間,有一道不可逾越的鴻溝。這道鴻溝需要良好定義的data lake架構來(lái)解決。
      這個(gè)良好定義的data lake架構,目前來(lái)看就是“數據治理”,我們需要把重心從系統建設提升到數據建設,在“數據治理”的基礎上,為上層業(yè)務(wù)提供自助化的服務(wù)。因此我們還有如下的幾點(diǎn)收獲:
    • data lake與data warehouse的理念不同,相對于data Warehouse的注重數據管控,data lake更傾向于數據服務(wù)
    • data lake對數據從業(yè)人員的素質(zhì)要求更高;對數據系統的要求更高,要防止數據湖變數據沼澤 ,此時(shí)就需要借助現代化的數據治理能力
    • data lake與data warehouse不是互斥的。當前條件下,data lake并不能完全替代warehouse。尤其是對于已經(jīng)使用data warehouse的公司,這種情況下warehouse可以作為data lake的一個(gè)數據來(lái)源
      八、總結
      傳統的數據倉庫模式,確實(shí)在快速發(fā)展的企業(yè)面前顯的力不從心。
      data lake以數據治理為基礎、一套自助服務(wù)為抓手的工具鏈來(lái)賦能業(yè)務(wù)發(fā)展,這套理論是否是最適合現代企業(yè)(尤其是快速創(chuàng )新的企業(yè))的,在一定程度上可以,但還需要持續驗證。但是有一點(diǎn)值得注意,業(yè)界在data lake的嘗試上一般都會(huì )忽視數據治理的重要性,這是很危險的,由它導致的數據沼澤也是企業(yè)對data lake持續觀(guān)望的愿意之一。
      另外,現在崛起的數據中臺,它完全以數據治理、數據服務(wù)為核心理念而建,并比data lake更貼近業(yè)務(wù)場(chǎng)景,這也是數據中臺方興未艾的一個(gè)原因。
      本文轉載自公眾號:數據老鐵匠
     
    【免責聲明】本文僅代表作者本人觀(guān)點(diǎn),與CTI論壇無(wú)關(guān)。CTI論壇對文中陳述、觀(guān)點(diǎn)判斷保持中立,不對所包含內容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

    相關(guān)閱讀:

    專(zhuān)題

    CTI論壇會(huì )員企業(yè)

    亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩 龙井市| 凌海市| 沭阳县| 甘德县| 尉氏县| 双柏县| 平潭县| 荆门市| 南乐县| 神木县| 济源市| 和田市| 阳城县| 平遥县| 霍州市| 青海省| 南靖县| 措美县| 牙克石市| 宝坻区| 涞源县| 湄潭县| 册亨县| 津南区| 岑巩县| 刚察县| 县级市| 武宣县| 济南市| 肇庆市| 泰州市| 屏东县| 灌云县| 湘西| 祁阳县| 嘉兴市| 辛集市| 卓资县| 石渠县| 油尖旺区| 闽侯县| http://444 http://444 http://444 http://444 http://444 http://444