人人都在談?wù)摯髷祿?但是究竟什么是大數據呢?大數據主要來(lái)源于互聯(lián)網(wǎng)領(lǐng)域和一些垂直行業(yè),數據量達到PB級,甚至10PB以上;它需要更高性能、更大吞吐量、更大擴展能力.據統計,全球80%的數據在近兩年生成,平均年增長(cháng)率超過(guò)50%。數據正從四面八方、各個(gè)領(lǐng)域中產(chǎn)生,變得更繁雜、更龐大、更加多樣性,如果將這些海量數據簡(jiǎn)單堆加、存儲歸檔,是不能為企業(yè)帶來(lái)價(jià)值的,反而會(huì )增加企業(yè)投資成本。只有完成對大數據的分析、價(jià)值數據提取,才能發(fā)揮大數據最大的威力,進(jìn)一步提高企業(yè)決策水平、改善業(yè)務(wù)模式,從而成為企業(yè)成功的關(guān)鍵。
Hadoop是一個(gè)分布式計算框架,來(lái)源于A(yíng)pache軟件基金會(huì )的開(kāi)源項目,具有良好的并行處理能力、可擴展性和可伸縮性的特點(diǎn),更適合處理半結構化、非結構化類(lèi)數據,是重要的大數據計算和分析平臺。Hadoop因此獲得大多數數據分析廠(chǎng)商的關(guān)注和支持,成為當下大數據領(lǐng)域的熱點(diǎn)技術(shù)。根據上述大數據的四個(gè)特點(diǎn),系統不僅需要具備超高的性能和超大的存儲空間,還必須將數據存儲與數據分析相結合,由此華為N8000-Hadoop大數據解決方案應運而生。該方案借助華為N8000系統先進(jìn)的集群架構和企業(yè)級存儲功能,集成Hadoop計算框架,提供從密集型數值計算和數據存儲中實(shí)時(shí)獲取的分析處理結果,幫助客戶(hù)提高決策和運營(yíng)效率,簡(jiǎn)化管理并降低組網(wǎng)成本。華為N8000-Hadoop大數據解決方案有以下特性和優(yōu)勢:
1. 數據互通,承載多業(yè)務(wù)
首先,我們先分析一下當前集群NAS應用Hadoop的典型數據處理流程。數據通過(guò)集群NAS的NFS/CIFS等NAS協(xié)議完成數據存取操作,而Hadoop是架構在HDFS協(xié)議之上,這意味著(zhù)集群NAS的數據不能被Hadoop計算框架直接使用,必須通過(guò)異構數據源之間進(jìn)行數據交換的工具,將異構數據源的數據抽取到中間層進(jìn)行轉換,最后加載到數據倉庫中,成為Hadoop計算框架能夠分析處理的數據。而華為N8000-Hadoop方案提出一種創(chuàng )新的思路,消除了這個(gè)桎梏,實(shí)現在不同的數據處理系統之間進(jìn)行數據交換,在同一個(gè)存儲空間中,數據可以自由流通,所見(jiàn)即所得,并且不需要改變傳統NAS用戶(hù)使用習慣和組網(wǎng)方式,無(wú)縫對接Hadoop計算框架,實(shí)現數值計算、數據存儲以及即時(shí)的數據分析和事務(wù)處理等多業(yè)務(wù)的承載。
2. 提高存儲利用率,降低TCO
使用開(kāi)源Hadoop的默認配置,一種典型的犧牲存儲空間換取數據可靠性和讀寫(xiě)效率的方式,其最大存儲空間利用率是33%。而華為N8000-Hadoop大數據解決方案充分利用了N8000產(chǎn)品企業(yè)級存儲功能特性的優(yōu)勢,通過(guò)選擇各種RAID級別技術(shù)來(lái)實(shí)現不同級別的冗余、錯誤恢復和數據保護功能,存儲空間利用率可達80%,從而降低系統總體擁有成本TCO。
3. 企業(yè)級Hadoop整體解決方案
在使用開(kāi)源Hadoop時(shí)的第一個(gè)問(wèn)題是如何為Hadoop集群選擇合適的硬件,這需要考慮各種影響因素,往往根據使用經(jīng)驗來(lái)決定配置,這使得構建系統存在很大不確定性。華為N8000-Hadoop大數據解決方案可為一個(gè)給定的工作負載選擇合理的硬件配置來(lái)實(shí)現性能和經(jīng)濟的最佳平衡。華為N8000集群系統作為企業(yè)級存儲產(chǎn)品,采用多節點(diǎn)全Active集群技術(shù),所有部件均為冗余設計,無(wú)單點(diǎn)故障,系統提供數據保險箱技術(shù)和文件系統鏡像等軟件技術(shù)進(jìn)一步提高系統可靠性。
4. 海量小文件處理性能
目前,很多用戶(hù)開(kāi)始利用Hadoop處理海量數據,并取得很好的效果,但隨著(zhù)數據量增加,尤其是小文件數目的增多,逐漸發(fā)現Hadoop能夠高效自如地處理大文件,卻在處理海量小文件時(shí)由于Name Node占有率高而導致訪(fǎng)問(wèn)效率低的問(wèn)題。而華為N8000-Hadoop方案是基于共享集群文件系統,消除了Name Node的限制,具有多任務(wù)處理的功能,元數據可被分段管理,不會(huì )出現性能瓶頸,從而提高了對海量小文件處理的效率。
大數據的出現,我們不僅要思考如何解決數據量級劇增帶來(lái)的問(wèn)題,更重要的是如何從大數據挖掘出商業(yè)價(jià)值。華為N8000-Hadoop方案以業(yè)界性能和容量雙雙領(lǐng)先的企業(yè)級集群NAS存儲系統為基石,優(yōu)化Hadoop計算框架,幫助客戶(hù)從紛繁復雜的數據中獲取信息,以支持更快的決策。