Azure推出正式版的數(shù)據(jù)湖儲存服務Data Lake Storage Gen2和數(shù)據(jù)完全托管服務Data Explorer，以及預覽版的混合數(shù)據(jù)整合服務Data Factory

　　微軟云端平臺Azure最近宣布針對3項數(shù)據(jù)服務的更新，包含推出正式版的數(shù)據(jù)湖儲存服務Data Lake Storage Gen2和數(shù)據(jù)完全托管服務Data Explorer，此外，還推出預覽版的混合數(shù)據(jù)整合服務Data Factory，期望提供用戶性價比高又安全的云端數(shù)據(jù)分析服務。

　　數(shù)據(jù)湖儲存服務Data Lake Storage Gen2適用於巨量數(shù)據(jù)分析，結(jié)合了Azure非結(jié)構(gòu)化儲存服務Blob Storage的可擴展性、安全模型和豐富的功能於一身，再加上為分析所設計的高效能的檔案系統(tǒng)，還能與Hadoop分散式檔案系統(tǒng)相容，讓用戶選擇云端數(shù)據(jù)湖服務時，不需要在成本和效能中取舍。

　　圖片來源：微軟

　　微軟指出，自家數(shù)據(jù)湖儲存服務其中一項主要目標，即是要與Apache生態(tài)系統(tǒng)相容，為了做到這點，微軟開發(fā)Azure Blob檔案系統(tǒng)驅(qū)動程式，該驅(qū)動程式正式成為Apache Hadoop和Spark的一部分，并且附於許多 Hadoop的商業(yè)版本中。

　　為了進一步提升Data Lake Storage Gen2的分析效能，微軟用階層式命名空間，收集檔案集合并整理成階層式目錄和巢狀子目錄，此種命名空間對巨量資量分析架構(gòu)相當重要，由於Hive或是Spark等工具經(jīng)常將輸出寫入暫時位置，并在作業(yè)結(jié)束時重新命名該位置，若沒有階層式命名空間，重新命名所花費的時間通常會比分析流程本身更長，因此，階層式命名空間因為需要較少的運算執(zhí)行，能夠加速job執(zhí)行并減低成本。

　　而Data Explorer是一個快速且具有高擴展性的完全托管數(shù)據(jù)分析服務，能夠針對大量的串流數(shù)據(jù)進行即時分析，在不需要修改數(shù)據(jù)結(jié)構(gòu)的情況下，一秒內(nèi)能夠查詢10億筆記錄，此外，該服務能與微軟云端其他服務相連，像是Data Lake Storage、SQL Data Warehouse、Power BI。為了提升速度和簡化操作，Data Explorer由兩個分別的服務組成：Engine服務和數(shù)據(jù)管理服務，這兩項服務都在Azure中，以運算節(jié)點的叢集形式部署。

　　圖片來源：微軟

　　數(shù)據(jù)管理服務負責消化多種不同型態(tài)的原始數(shù)據(jù)，并且管理數(shù)據(jù)清理、執(zhí)行失敗和backpressure等任務，還能透過自動索引和壓縮機制快速處理數(shù)據(jù)。而Engine服務則是負責處理輸入的原始數(shù)據(jù)和用戶的查詢，透過自動擴展（Auto Scaling）和數(shù)據(jù)分割（data sharding）來達到高效能的目標。

　　最後，微軟這次的更新還推出混合數(shù)據(jù)整合服務Data Factory預覽版，Data Factory服務是用來將數(shù)據(jù)移動和轉(zhuǎn)換工作自動化的服務，內(nèi)建超過80個與結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)源的連接器。除此之外，該服務還提供數(shù)據(jù)工作流程可視化工具Mapping Data Flow，提供用戶在設計、建置和管理數(shù)據(jù)轉(zhuǎn)換的過程有可視化的體驗，不需要學習Spark或是對分散式基礎架構(gòu)有深入的了解。