
跨界競爭呼喚系統架構創(chuàng )新
我們正在進(jìn)入一個(gè)跨界競爭的新時(shí)代,每個(gè)行業(yè)都面臨著(zhù)結構性挑戰,對電信行業(yè)來(lái)說(shuō)尤其如此。
首先,從收入結構來(lái)看,運營(yíng)商的業(yè)務(wù)正遭遇來(lái)自IT產(chǎn)業(yè)的挑戰。之前,電信業(yè)務(wù)分為三個(gè)層次:終端、網(wǎng)絡(luò )和IT基礎設施以及上層應用。隨著(zhù)網(wǎng)絡(luò )接入速率的大幅提升,導致IT產(chǎn)業(yè)從賣(mài)產(chǎn)品變成賣(mài)服務(wù),骨干網(wǎng)絡(luò )和IT基礎設施逐漸變成云服務(wù)的形式。運營(yíng)商如果能把云服務(wù)做好,就可以與AWS等云服務(wù)巨頭爭搶萬(wàn)億美元的云市場(chǎng),反之則將喪失很多傳統的電信業(yè)務(wù),尤其是數據中心之間的專(zhuān)線(xiàn)業(yè)務(wù)等,比如阿里云就正在建設連接全球的云骨干網(wǎng)。
其次,運營(yíng)商的效率和成本也面臨結構性挑戰。如今,電信設備維護的OPEX支出約為CAPEX的三倍,給運營(yíng)商帶來(lái)沉重的負擔。此外,電信網(wǎng)絡(luò )越來(lái)越復雜,超過(guò)了一個(gè)人的專(zhuān)業(yè)知識和能力,導致70%的重大網(wǎng)絡(luò )故障都是人為因素造成。正如加拿大運營(yíng)商TELUS首席無(wú)線(xiàn)架構師所說(shuō):“機械制造都走向自動(dòng)化了,電信業(yè)還處于手工業(yè)的階段。”
要解決電信業(yè)面臨的挑戰,僅僅靠產(chǎn)品創(chuàng )新是遠遠不夠的,需要整個(gè)系統架構的創(chuàng )新和商業(yè)模式的創(chuàng )新,才能提升運營(yíng)商的競爭力,解決結構性問(wèn)題。什么是系統架構創(chuàng )新?以云計算為例,它并不是某個(gè)服務(wù)器或存儲產(chǎn)品的創(chuàng )新,而是通過(guò)全新的分布式系統提升資源利用效率,是系統級的創(chuàng )新。產(chǎn)品創(chuàng )新、系統架構創(chuàng )新和商業(yè)模式創(chuàng )新三者相互支撐,互相促進(jìn)。

為了滿(mǎn)足新時(shí)代的客戶(hù)需求,華為的創(chuàng )新體系即按照上述三個(gè)維度來(lái)設計。在產(chǎn)品層面,華為設計網(wǎng)絡(luò )設備的指導思想是“奧運精神”,即大容量、低時(shí)延,所有產(chǎn)品創(chuàng )新都圍繞這個(gè)目標進(jìn)行。在系統架構創(chuàng )新領(lǐng)域,華為的目標是構建一個(gè)敏捷的自動(dòng)化、智能化網(wǎng)絡(luò ),實(shí)現網(wǎng)絡(luò )的“自動(dòng)駕駛模式”。在商業(yè)模式創(chuàng )新上包括兩個(gè)目標,第一是通過(guò)提供云服務(wù)成為世界五朵云之一,第二是構建網(wǎng)絡(luò )時(shí)代的在線(xiàn)智能服務(wù)模式。
SoftCOM AI帶來(lái)全新價(jià)值
回顧華為網(wǎng)絡(luò )架構的發(fā)展路徑,在A(yíng)LL IP階段我們提出Single戰略,云計算崛起后,2012年進(jìn)入ALL Cloud階段,我們提出SoftCOM來(lái)實(shí)現以數據中心為中心的網(wǎng)絡(luò )。近年來(lái)隨著(zhù)人工智能技術(shù)的發(fā)展,我們提出要全面智能化(ALL Intelligence),將人工智能引入電信網(wǎng)絡(luò ),SoftCOM AI由此誕生,目的是實(shí)現網(wǎng)絡(luò )架構層面的自治網(wǎng)絡(luò ),以及商業(yè)模式層面的服務(wù)2.0。
引入人工智能的自治網(wǎng)絡(luò ),意在構建網(wǎng)絡(luò )領(lǐng)域的“工業(yè)4.0”,實(shí)現網(wǎng)絡(luò )“自動(dòng)駕駛”。工業(yè)4.0有三個(gè)特征,即敏捷的設備、智能的控制和智慧的分析系統,來(lái)實(shí)現生產(chǎn)的自動(dòng)化,這對于電信業(yè)來(lái)說(shuō)同樣適用。在電信網(wǎng)絡(luò )中,下層是網(wǎng)絡(luò )設備,上面是控制層,在整個(gè)網(wǎng)絡(luò )的控制和運維方面,端到端引入人工智能技術(shù),構建分段自治功能,每一段的自治通過(guò)上層運營(yíng)系統實(shí)現端到端的自治能力,進(jìn)而實(shí)現整網(wǎng)自治。自治網(wǎng)絡(luò )帶來(lái)的最大變化是運維維護人員不在整個(gè)業(yè)務(wù)流程里,是一個(gè)自動(dòng)化的系統,我們稱(chēng)之為“網(wǎng)絡(luò )自動(dòng)駕駛模式”,來(lái)實(shí)現整個(gè)網(wǎng)絡(luò )的自?xún)?yōu)、自愈、自動(dòng)化。
服務(wù)2.0的目標則是打造網(wǎng)絡(luò )領(lǐng)域的“工業(yè)互聯(lián)網(wǎng)”,提供在線(xiàn)數字化“智慧服務(wù)”。將這一服務(wù)理念延伸到電信行業(yè),未來(lái)的網(wǎng)絡(luò )在運營(yíng)商側全自動(dòng)化運行,華為則在后臺提供基于人工智能的全自動(dòng)化在線(xiàn)服務(wù),這種服務(wù)基于持續迭代的模式,根據業(yè)界慣例構建“模型即服務(wù)”,永遠處于Beta階段,不斷更新和完善。
將AI引入電信網(wǎng)絡(luò ),帶來(lái)的全新價(jià)值是“可預測性”。電信網(wǎng)絡(luò )的管理和控制中心基于設備的南向接口和數據采集,通過(guò)一定的策略和規則,來(lái)實(shí)現對整個(gè)網(wǎng)絡(luò )的管理和調度。其實(shí)施的依據主要有三個(gè)條件,包括網(wǎng)絡(luò )的可達性、SLA要求和資源效率,這些是網(wǎng)絡(luò )實(shí)現自動(dòng)化的基礎。但隨著(zhù)網(wǎng)絡(luò )日益復雜,僅有這些已遠遠不夠,需要在網(wǎng)絡(luò )中引入基于算法的網(wǎng)絡(luò )管控、在線(xiàn)AI推理和數據分析,實(shí)現流量預測、質(zhì)量預測和故障預測。預測性是AI的核心價(jià)值,基于未知的條件來(lái)調度網(wǎng)絡(luò ),實(shí)現故障發(fā)生前規避故障、質(zhì)量劣化前優(yōu)化質(zhì)量、網(wǎng)絡(luò )擁塞前調整流量,從而達到自動(dòng)、自?xún)?yōu)、自愈、自治的永不故障的自動(dòng)駕駛網(wǎng)絡(luò ),結構性提升運維和運營(yíng)效率。
提升用戶(hù)體驗,實(shí)現三個(gè)倍增
要實(shí)現網(wǎng)絡(luò )的自動(dòng)駕駛,必然將是一個(gè)長(cháng)期的過(guò)程,不可能一蹴而就。參考汽車(chē)自動(dòng)駕駛的五個(gè)發(fā)展步驟,我們也將自動(dòng)駕駛網(wǎng)絡(luò )分為五個(gè)階段,第一個(gè)階段是AI能夠指出“發(fā)生了什么”,第二個(gè)階段需要判定“為什么會(huì )發(fā)生”,第三個(gè)階段需要預測“將會(huì )發(fā)生什么”,后續都需要人工判斷決策和采取相應措施;到了第四個(gè)階段,AI已經(jīng)可以判斷“需要采取什么措施”,然后由人工去操作;最后一個(gè)階段才是全面地實(shí)現網(wǎng)絡(luò )的自我控制和自動(dòng)修復,使網(wǎng)絡(luò )具備自愈能力。

自治網(wǎng)絡(luò )和服務(wù)2.0的實(shí)現,將帶給最終用戶(hù)分鐘級的ROADS體驗,永遠最優(yōu)的網(wǎng)絡(luò )連接和永不斷網(wǎng)的可獲得性;對運營(yíng)商的價(jià)值則是實(shí)現運維效率、資源效率和能耗效率的倍增。
在運維領(lǐng)域,運維水平分為三個(gè)發(fā)展階段,第一個(gè)階段稱(chēng)為R2F(Run-to-Failure),網(wǎng)絡(luò )在運行中突然發(fā)生故障,然后運維人員馬上趕去處理,這是最低級的水平;第二個(gè)階段是PvM(Preventive Maintenance),即例行的巡檢,對每個(gè)設備進(jìn)行檢查來(lái)預防故障發(fā)生,但這種做法效率非常低下;第三個(gè)階段是PdM(Predictable Maintenance),我們稱(chēng)之為可預測性維護,即能夠預測某個(gè)設備未來(lái)有多大概率發(fā)生故障,然后進(jìn)行針對性的維護。通過(guò)PdM,我們希望能將電信網(wǎng)絡(luò )的告警壓縮和故障定位減少90%,實(shí)現90%關(guān)鍵器件的失效和劣化預測,進(jìn)一步達到網(wǎng)絡(luò )自愈。此外,網(wǎng)絡(luò )故障中超過(guò)70%的問(wèn)題源自無(wú)源設備,例如光纖彎曲老化、接口松動(dòng)等,在這一過(guò)程中,信號都會(huì )發(fā)生變化,通過(guò)引入AI學(xué)習這些變化的特征,就有可能提前進(jìn)行預測,用有源解決無(wú)源的故障問(wèn)題。
在網(wǎng)絡(luò )資源方面,當下的特點(diǎn)是網(wǎng)絡(luò )建設好了,流量就隨之流動(dòng),資源利用可能并不合理。如果反過(guò)來(lái)思考,基于流量走向來(lái)調度網(wǎng)絡(luò ),資源利用率就會(huì )大幅提升。現在的網(wǎng)絡(luò )并不具備這樣的能力,只有通過(guò)引入人工智能,建好流量預測模型,才能實(shí)現精準流量預測和最合理的網(wǎng)絡(luò )拓撲,以流量而不是物理連接來(lái)決定網(wǎng)絡(luò )的路徑,最終大幅提高網(wǎng)絡(luò )的資源效率。
關(guān)于能耗效率,有個(gè)說(shuō)法叫做“比特決定瓦特”,即網(wǎng)絡(luò )流量大小決定能耗多少。在機房或者站點(diǎn),每個(gè)系統都有數十個(gè)參數,通過(guò)AI訓練生成散熱與環(huán)境及業(yè)務(wù)負荷模型,使得日照、溫度和配套設施油機、太陽(yáng)能和電池等達到最佳能效;在設備層面,根據業(yè)務(wù)負載進(jìn)行動(dòng)態(tài)能量投放,沒(méi)有流量時(shí)就利用時(shí)隙關(guān)斷、RF深度休眠、載頻關(guān)斷等減少耗電量,同時(shí)實(shí)現數據中心對象如服務(wù)器組件的動(dòng)態(tài)節能管理;第三個(gè)是網(wǎng)絡(luò )系統,構建準確的業(yè)務(wù)負荷預測模型,使整網(wǎng)流量最優(yōu)從而達到能耗效率最佳。
自治網(wǎng)絡(luò )的目標架構,對華為來(lái)說(shuō)就是SoftCOM+AI,具體做法是:把下層設備和云基礎設施、中間層的網(wǎng)絡(luò )管理和控制以及上層全流程的系統,在規劃、部署、運行、維護、優(yōu)化和經(jīng)營(yíng)的端到端過(guò)程中,每一個(gè)環(huán)節都引入人工智能技術(shù),使能網(wǎng)絡(luò )達到系統最優(yōu)。與此同時(shí),華為也構建了一個(gè)面向運營(yíng)商的AI訓練平臺,將網(wǎng)絡(luò )設備運行的狀態(tài)數據接入平臺來(lái)訓練AI模型,并針對模型進(jìn)行持續更新和優(yōu)化,使得網(wǎng)絡(luò )系統的自動(dòng)化程度不斷提高。
以光網(wǎng)絡(luò )為例,來(lái)看一下AI如何使能全流程的業(yè)務(wù)發(fā)展。首先是數據底座,即需要獲得怎樣的數據,具體到光網(wǎng)絡(luò )來(lái)說(shuō)包括光纖的數據、光信號的數據、路由數據等;接下來(lái)是使能技術(shù),即人工智能的算法,包括數據清洗、信息整合、機器學(xué)習建模、深度學(xué)習等等,這些算法與光網(wǎng)絡(luò )無(wú)關(guān);為了實(shí)現光網(wǎng)絡(luò )的自動(dòng)駕駛,還需要構建大量模型,比如光纖模型、濾波器模型等;最后是業(yè)務(wù)應用場(chǎng)景,包括開(kāi)局自動(dòng)檢查光纖、業(yè)務(wù)發(fā)放、網(wǎng)絡(luò )優(yōu)化、故障定位以及資源自動(dòng)調度等,通過(guò)模型找到最優(yōu)方法,進(jìn)而實(shí)現快速發(fā)放、極簡(jiǎn)運維和智能運營(yíng),智能化提高網(wǎng)絡(luò )調度效率,零等待、零接觸、零體驗,讓人們感受不到網(wǎng)絡(luò )的存在。
未來(lái)將是智能化的時(shí)代,運營(yíng)商網(wǎng)絡(luò )的智能化不可能一蹴而就,而是一個(gè)長(cháng)期實(shí)踐。SoftCOM AI是華為All Intelligence戰略在電信領(lǐng)域的落地,其中最核心的AI能力依托于華為在A(yíng)ll Intelligence中長(cháng)期堅決的戰略投入而積累成長(cháng),和電信領(lǐng)域場(chǎng)景相結合,旨在幫助運營(yíng)商打造永不故障的自治網(wǎng)絡(luò ),盡快實(shí)現數字化、智能化轉型。