
一、擁抱新變化,構建新平臺
陶濤表示,隨著(zhù)數字經(jīng)濟的發(fā)展,全球數據量已經(jīng)進(jìn)入YB時(shí)代(1YB,即1千萬(wàn)億GB,約為4萬(wàn)億臺256GB手機的存儲容量)。在數據規模的爆發(fā)式增長(cháng)下,中國移動(dòng)的數據形態(tài)呈現出“多模態(tài)”特點(diǎn),即各類(lèi)數據廣泛應用于政府、企業(yè),并逐步發(fā)展為全局、跨域、規模化應用。
同時(shí),隨著(zhù)數據量的發(fā)展和數據融合的逐步加深,傳統的數據庫、數據倉庫、大數據平臺技術(shù)逐漸顯露出“瓶頸”。在數據分散、重復存儲、難于管理等多重困難挑戰下,中國移動(dòng)緊緊圍繞YB時(shí)代生態(tài)、高效處理海量非結構化數據、全面提升數據韌性等數據治理演進(jìn)方向,打造湖倉一體新型開(kāi)放式架構。這既是中國移動(dòng)直面數據孤島挑戰的態(tài)度,也可以看作是協(xié)同各界力量對建設未來(lái)新型大數據平臺的嘗試。
湖倉一體架構充分結合了數據湖和數據倉庫的優(yōu)勢,在低成本的數據湖存儲架構之上,繼承了數據倉庫的數據處理和管理功能,形成了一個(gè)完整且高效的數據處理體系,實(shí)現一份數據和一套任務(wù)在湖、倉之上的無(wú)縫調度和管理。
二、YB時(shí)代,從“存”到“倉”的蝶變
陶濤詳細介紹了湖倉一體技術(shù)架構的兩個(gè)關(guān)鍵,即存算分離與湖倉融合。

存算分離,即存儲和計算使用單獨的集群,按需分別擴展存儲或計算資源,保證整體系統能夠支持更多用戶(hù)并發(fā)和更大數據量。
湖倉融合,形成了邏輯統一的一體化數據服務(wù),開(kāi)發(fā)者只需要提交標準SQL(數據庫語(yǔ)言),即可計算出想要的結果。
湖倉一體作為一種新型開(kāi)放式架構,能夠充分結合數據湖和數據倉庫的優(yōu)勢,在數據湖低成本的存儲架構之上,繼承數據倉庫的數據處理和管理功能,存儲、轉換、集成結構化和非結構化數據,將不同種類(lèi)數據融合在一起,并從中提取出有用價(jià)值。
陶濤認為,“綠色、集約、智能”是湖倉一體技術(shù)架構上的核心優(yōu)勢。面對新的應用需求,一方面湖倉一體產(chǎn)品可從用戶(hù)的核心訴求出發(fā)更好地支撐數據存儲與分析;另一方面,湖倉一體架構可支持企業(yè)優(yōu)化自身底層數據治理架構,從而幫助企業(yè)提升“人效”和“能效”,更精準地抓住商業(yè)機會(huì ),創(chuàng )造發(fā)展優(yōu)勢。湖倉一體技術(shù)所具備的高效的數據處理優(yōu)勢以及經(jīng)濟、節能優(yōu)勢,使之在實(shí)時(shí)數倉、支撐云原生的融合數據底座、降本增效等場(chǎng)景中具有廣泛的應用前景。
基于湖倉一體的架構規劃,中國移動(dòng)打造了分布式協(xié)同計算平臺。集群分布在全國九大區域中心,有機融合了數據湖(Hadoop)和數據倉庫(OLAP)能力,實(shí)現物理分散、邏輯統一的一體化數據服務(wù)。
湖倉一體技術(shù)架構為大數據產(chǎn)業(yè)提供了未來(lái)路徑和方法。陶濤強調,對于不同的企業(yè)來(lái)說(shuō),數據情況、業(yè)務(wù)需求各不相同,但對于統一數據存儲、統一數據計算、統一數據管理,實(shí)現企業(yè)數據資產(chǎn)應用效能最大化的訴求是一致的。在聯(lián)合產(chǎn)業(yè)合作伙伴發(fā)布技術(shù)標準、技術(shù)白皮書(shū)之后,陶濤代表中國移動(dòng)呼吁產(chǎn)業(yè)合作伙伴共迎變革,共同構建湖倉一體創(chuàng )新生態(tài),推進(jìn)大數據下一代技術(shù)架構廣泛應用。