近日,以“Connect·Collaborate·Accelerate”為主題,由浪潮和OCP基金會聯合舉辦的第二屆OCP China Day 暨OCP Tech Week全球技術峰會中國專場在北京望京凱悅酒店隆重開幕。騰訊作為OCP中國社區(qū)的核心成員,在峰會現場介紹了當前數據中心互聯光網絡技術的發(fā)展,以及騰訊基于標準化單元構建的自動運行光網絡。目前,騰訊已將光網絡的標準單元快速復制到數據中心互聯應用中,有效應對數據中心互聯帶寬的快速增長。
數據中心光網絡面臨挑戰(zhàn)
過去的10年是互聯網高速發(fā)展的10年,隨著產業(yè)的不斷發(fā)展,應用種類極大豐富,用戶規(guī)?涨褒嫶。往往一個應用就擁有千萬級別用戶,上PB數據量。在這樣的環(huán)境下,早期的單機或集群的計算模式已經無法滿足應用的發(fā)展要求,更大規(guī)模的云計算模式是互聯網持續(xù)發(fā)展的必經之路。
受限于目前數據中心的規(guī)模問題以及異地容災的需求,往往一個應用會分布在多個數據中心之內,導致在不同的云數據中心之間往往會產生幾百甚至上千GB的帶寬需求。在這樣的背景下,光網絡逐漸走入了互聯網企業(yè)的視野。
騰訊的開放光網絡平臺是騰訊新一代光網絡系統(tǒng),基于超強的采集和控制能力不斷提升光網絡的自動化水平,目標是構建一個高度自動化、友好的光網絡。目前,騰訊的開放光網絡平臺已經解決了硬件標準化問題,開發(fā)標準的OPC-4設備,實現電層系統(tǒng)與光層系統(tǒng)的解耦合,不再綁定單一供應商。同時騰訊開放光網絡平臺標準化的管控模型也已開發(fā)完畢。通過騰訊開放光網絡控制器實現對不同廠商設備的統(tǒng)一管控。
開放光網絡的未來 -- 自動化
數據流量的快速增長,要求我們部署越來越多的帶寬;ヂ摼W的時代,層出不窮的應用被創(chuàng)造出來,他們便捷了我們的生活,提升了效率。這些應用加工數據、產生數據,特別是一些新的、流行的移動應用在人群中傳播速度非?,隨之帶來的是流量的迅速增長,這要求我們必須以更快的速度部署帶寬資源。為數據中心提供高質量帶寬,保證帶寬長期穩(wěn)定運行,開放光網絡的研發(fā)被騰訊提上日程。
為應對大規(guī)模數據中心快速增長的互聯帶寬,騰訊技術人員針對數據中心互聯組網的特點,構建了一套開放光網絡系統(tǒng),通過將光網絡切割成一個一個獨立的標準化單元,設計為更加適用于數據中心應用的硬件設備OPC-4,TPC-4和設備管控模型,構建起標準化管控系統(tǒng),實現對不同廠商設備的統(tǒng)一管理,混合組網,并將標準單元應用到數據中心互聯中,在一定程度上能夠更加有效地應對帶寬的快速增長。
隨著系統(tǒng)規(guī)模越來越大,網絡運營壓力也持續(xù)增大,騰訊正在為系統(tǒng)構建自動化自主運行能力,使系統(tǒng)能夠常態(tài)化自動運行。騰訊技術人員依然是從標準結構入手,基于閉環(huán)控制的原理,為標準結構構建起自主運行的能力,使它能夠自己管理自己,自己優(yōu)化自己,使系統(tǒng)能夠常態(tài)化自動運行。這樣一旦標準結構具備了自主運行能力,便可以快速的將這種能力復制到整個網絡,使整個網絡能夠常態(tài)化自動運行。

數據中心自動光網絡邁進三部曲
數據中心互聯光網絡在持續(xù)向前演進,從最初依靠工程師經驗驅動的光網絡,到標準模型一統(tǒng)天下的模型驅動光網絡,再向數據為王的數據驅動光網絡演進。第一個階段,主要依靠經驗豐富的工程師,將不同廠商的傳輸系統(tǒng)部署到了數據中心網絡。此時系統(tǒng)的復雜度是最高的,因為雖然滿足同樣的需求,但是不同廠商的設備,實現的方案是不一樣的,整個網絡充斥著不同廠商的不同方案,面對本質上類似的技術問題,雖然掌握基本原理,但是要落實到具體的系統(tǒng),就需要熟悉某個系統(tǒng)的專家來幫助分析問題,同時需要針對特定系統(tǒng)操作熟練的工程師配合,這個階段運維大廳里坐著很多不同廠商的工程師。此時系統(tǒng)是最復雜的,需要最多的人來處理解決問題。
如何降低系統(tǒng)的復雜度?減少人工干預?答案是:標準化,程序化!通過構建標準化的流程,用程序去處理模型統(tǒng)一一致的物理設備,可以很大程度的降低整個系統(tǒng)的復雜度。這就是第二個階段模型驅動階段,這個階段大家會針對自己的系統(tǒng)定義標準模型,而騰訊則更進一步,直接定義系統(tǒng)需要的硬件設備,這樣即使不同廠商進行生產,但設備的形態(tài)保持一致,這明顯降低了系統(tǒng)的復雜度,不用再去關注不同設備的細節(jié)差異,開始基于相同的模型構建,來對系統(tǒng)進行思考。
這個階段強調的是模型的一致性,行為的一致性。當系統(tǒng)標準化后,對系統(tǒng)進行數字化升級改造,極大的提升了系統(tǒng)的數據采集能力,使系統(tǒng)能夠采集到更多、更精細化的數據。為我們向下一個階段:數據驅動的光網絡演進奠定基礎。
經歷了模型驅動階段,系統(tǒng)具備了標準模型,同時積累了大量的數據,使整個系統(tǒng)全景數據化成為可能。而源源不斷的數據也成為了驅動系統(tǒng)不斷發(fā)現問題,解決問題的核心驅動力,至此我們?yōu)橄到y(tǒng)構建起了一個數據引擎,驅動系統(tǒng)不斷的優(yōu)化和演進。

構建自動控制架構關鍵能力
騰訊開放光網絡的自動控制架構,本質是一個閉環(huán)控制架構。整個架構的關鍵點是四大關鍵能力的構建:控制能力,采集能力,感知能力,決策能力。然后將這四大能力合理有序的串聯起來,便可以實現整個系統(tǒng)的自動運行。采集能力采集到系統(tǒng)更加詳盡、更加精細的運行數據,感知能力通過對運行數據的分析,感知到系統(tǒng)的變化,決策能力則是使系統(tǒng)具備科學分析,科學決策的能力,依據感知結果對系統(tǒng)作出科學決策,并將指令傳遞給控制系統(tǒng)執(zhí)行,實現對系統(tǒng)的閉環(huán)控制。

構建光網絡的感知能力
什么是感知能力?用人體的一個體驗作為一個例子,如果人體被針扎一下或者手擰一下,都會體會到疼痛,人體體會到疼痛是一種采集能力,但是我們的大腦能夠準確地從這兩種疼痛不同的表現方式,感覺出哪個是針扎,哪個是手擰,這就是感知能力?梢钥吹礁兄芰κ且环N對數據的分析,并得到結論的能力。在傳統(tǒng)的光網絡系統(tǒng)中,對數據的感知往往是由經驗豐富的工程師來完成的,騰訊正在幫助系統(tǒng)構建起這種能力,使系統(tǒng)能夠在無人干預的情況下,自行實現對數據的經驗性轉化。目前騰訊開放光網絡已經具備了控制能力和采集能力,正在進行感知能力和分析能力的構建。
騰訊主要是從兩個維度來構建系統(tǒng)的感知能力,一個維度是:系統(tǒng)維度,另一個維度是:時間維度。系統(tǒng)維度,首先構建針對單個指標的感知能力,通過對不同指標的感知來判斷系統(tǒng)變化。我們的系統(tǒng)從物理上看是由硬件和光纖組成的,而這兩大類物理可見的物件,又是運營中可以操作的基本單元,構建針對硬件和光纖的感知能力,使系統(tǒng)能夠準確的感知其故障和潛在風險,觸發(fā)相關運維操作,便可以有效將非預期的故障轉化為預期的網絡操作,有效避免故障的發(fā)生。傳輸系統(tǒng)最終是一個帶寬系統(tǒng),我們常常會被用戶問及現在帶寬情況如何?帶寬的感知能力構建則是讓系統(tǒng)能夠自行回答這個問題。帶寬感知是系統(tǒng)最為關鍵的一環(huán),使讓系統(tǒng)能夠感知帶寬的運行狀態(tài),對潛在風險進行合理規(guī)避,有效降低帶寬的非預期性中斷,保證系統(tǒng)長期穩(wěn)定運行。
而從時間角度,則要為系統(tǒng)構建快速感知能力,中速感知能力和慢速感知能力,這是從系統(tǒng)問題分析的時效性出發(fā)定義的能力?焖俑兄菍π阅軘祿膶崟r分析,快速捕獲系統(tǒng)故障。中速感知則是對系統(tǒng)潛在風險或者關鍵指標變化的分析和感知,這往往需要對一定量數據進行分析,才能發(fā)現一定的特征。而慢速感知則是通過對大量數據的分析來感知系統(tǒng)運行趨勢,可以對系統(tǒng)未來的運行狀況進行預測。

設備作為整個系統(tǒng)的運行數據采集終端,騰訊在想辦法提升其采集數據的速率和精度,在騰訊的持續(xù)努力下,目前設備可以按照1s間隔向控制器推送性能數據,而且關鍵性能指標的時間分辨率可以達到20ms。控制器作為系統(tǒng)計算能力主要單元,則在持續(xù)提升其數據處理及時性和準確性。基于1s streaming telemetry構建的數字驅動系統(tǒng),對比傳統(tǒng)傳輸系統(tǒng)的15min性能數據,不僅僅是900倍的時間分辨率提升,更是對系統(tǒng)觀測能力的革命。正是基于對系統(tǒng)的精細化觀測,使我們能夠精確感知、準確控制。

數據驅動為系統(tǒng)帶來了革命性的變化的同時,也帶來了極大的挑戰(zhàn)。數據驅動系統(tǒng)的核心是:數據與算法。我們希望在這兩個方面與更多的合作伙伴一起合作,在數據為王的時代,數據源的質量直接影響到系統(tǒng)的正確表達,如何保證數據源的質量,如何監(jiān)控數據源的質量,是一項關鍵任務。
而找到數據背后的真相,發(fā)現問題的本質則會從根本上改變我們和供應商的協(xié)作方式,由原來我們只能在問題發(fā)生后被動的接受故障分析報告,演進到可以根據數據發(fā)現的真相,有效驅動供應商進行精準的問題修復,防患于未然。在算法方面,找到針對指標感知更加通用的算法,找到更加合理的帶寬質量分析算法,找到更加通用的硬件和網絡系統(tǒng)分析算法,則是我們關注的重點,有效解決光網絡系統(tǒng)問題的同時,更為通用的算法也可以更加便捷的應用到其他網絡領域中。
在本次OCP China Day大會上,可以看到來自騰訊、百度、Intel、微軟、浪潮、三星、希捷等不同領域的開放計算社區(qū)成員,騰訊的OPC-4和TOOP是開放的光網絡項目,百度的天蝎整機柜是開放的計算項目,三星poseidon是一款存儲產品,阿里的液冷是開放的數據中心散熱項目……在這些開源項目背后,是計算、存儲、網絡等不同領域的開源項目正在相互融合匯聚,開放計算不僅推動形成了下一代數據中心的基本技術框架,也在加速構建開放融合的統(tǒng)一計算生態(tài)。
消息來源:浪潮