中移動(dòng)山東公司建立“三多一小”的BOSS應急體系
崔可升 2010/03/08
建設IT應急(容災)系統似乎是一件不討好的事,花費很多錢(qián)只是為了防“萬(wàn)一”,“萬(wàn)一”不出現,大量的投入看起來(lái)就浪費了,但是又不得不預防“萬(wàn)一”。最壞的情況是,盡管花了不少錢(qián),但真正出現“萬(wàn)一”的時(shí)候,應急系統卻沒(méi)有發(fā)揮作用。
中國移動(dòng)山東公司(以下簡(jiǎn)稱(chēng)“山東移動(dòng)”)歷經(jīng)多年的建設,針對BOSS系統建立了相對完整的應急保障體系。2009年12月,山東移動(dòng)的BOSS應急體系建設項目榮獲中國移動(dòng)集團“2009年度最佳應急保障高效獎”。2010年1月,中國計費網(wǎng)(泰力信息)公布“2009中國電信業(yè)運營(yíng)支撐&IT系統年度評選”結果,山東移動(dòng)在BOSS應急體系建設中實(shí)施的云計算應用項目榮獲“年度管理創(chuàng )新項目獎”。在此,我介紹一些應急體系建設的經(jīng)驗和體會(huì ),跟IT同行們參考。
“三多一小”的應急體系
山東移動(dòng)的BOSS應急體系建設,概括起來(lái)就是“三多一小”,即多級冗余,數據為先;多級預案,逐步升級;多級聯(lián)動(dòng),重點(diǎn)保障;實(shí)現業(yè)務(wù)最小化影響。
多級冗余,數據為先。一是主機和磁盤(pán)陣列的冗余配置,主機的電源、內存、磁盤(pán)、光纖卡、網(wǎng)卡等都是冗余的,冗余的網(wǎng)卡、光纖卡要確保連接在不同的交換機上。二是機房、空調、電源的冗余,電源要配獨立的雙UPS和雙電源線(xiàn)接入。三是物理傳輸路由的冗余,冗余光纖傳輸要來(lái)自不同的物理路由。四是數據中心的冗余,三個(gè)中心互為災備,任何一個(gè)癱瘓,都可以由另外兩個(gè)數據中心接管。
多級預案,逐步升級。一級為業(yè)務(wù)應急預案,在業(yè)務(wù)本地運行模式下,系統出現故障時(shí)啟動(dòng),以實(shí)現對業(yè)務(wù)的影響最小或者沒(méi)有影響。通過(guò)業(yè)務(wù)部署、業(yè)務(wù)冗余處理模塊等多種方式實(shí)現。二級為本地接管預案,在單點(diǎn)故障或設備主動(dòng)維護時(shí),BOSS各個(gè)業(yè)務(wù)系統均實(shí)現本地HA(高可用性)接管,關(guān)鍵系統如營(yíng)業(yè)、計費、漫游、接口都實(shí)現了自動(dòng)接管。三級為容災切換預案,山東移動(dòng)建設了負荷分擔、互為備份的三中心容災體系,數據庫層采用1對2的架構,采用“存儲底層同步復制+定時(shí)快照復制”技術(shù),防止數據的物理或邏輯錯誤。四級為備份恢復系統,它提供生產(chǎn)數據快照及磁帶備份,日常全備和增量備份均直接通過(guò)遠程SAN備份到異地中心,用于嚴重事件的應急恢復工作。從第一級到第四級預案,故障帶來(lái)的損害程度逐漸增大,處理時(shí)間也逐步增長(cháng),當然對業(yè)務(wù)的影響程度也逐漸增大。根據事件發(fā)生的性質(zhì)和影響程度,優(yōu)先采用影響業(yè)務(wù)小的預案,并視情況逐步升級應急預案,目的是使事件對業(yè)務(wù)的影響減少到最低。
多級聯(lián)動(dòng),重點(diǎn)保障。建立完善的應急管理制度,才可以保證在遇到突發(fā)事件時(shí),應急管理組織體系能夠有效運轉。經(jīng)過(guò)幾年的實(shí)踐,山東移動(dòng)建立了應急監測預警機制、信息溝通機制、應急決策和協(xié)調機制、分級負責與響應機制。理順了業(yè)務(wù)與IT部門(mén)在應對突發(fā)事件中的關(guān)系、應急指揮和實(shí)施部門(mén)的關(guān)系、綜合應急部門(mén)和支持廠(chǎng)商的關(guān)系,建立了信息統一、管理對接、資源共享、協(xié)同有力的應急管理機制,調動(dòng)各方面應急管理的積極性。一方面,梳通內部流程,打通省市間、賬務(wù)中心與其它部門(mén)間的通道;另一方面,梳通廠(chǎng)家支持流程,與支持廠(chǎng)商建立合作關(guān)系,從而構建了“省-市-合作伙伴”多級聯(lián)動(dòng)的應急保障體系。
不同業(yè)務(wù)及系統的應急代價(jià)是完全不同的,同時(shí)帶來(lái)的應急手段差異也很大,需要以“最小的代價(jià)”進(jìn)行系統的“最快應急”。對開(kāi)戶(hù)、繳費、業(yè)務(wù)變更等關(guān)鍵業(yè)務(wù),山東移動(dòng)自主獨立開(kāi)發(fā)了單獨的關(guān)鍵業(yè)務(wù)保障小系統,獨立于BOSS系統外,同時(shí)和BOSS系統建立自動(dòng)接口,確保緊急情況下可以啟用該系統,進(jìn)行最關(guān)鍵業(yè)務(wù)的辦理。在系統異常、版本上線(xiàn)、本地接管、容災切換的過(guò)程中,可以啟用關(guān)鍵業(yè)務(wù)保障子系統,進(jìn)而打造一個(gè)關(guān)鍵業(yè)務(wù)不間斷的BOSS系統。
立足業(yè)務(wù) 自主創(chuàng )新
山東移動(dòng)BOSS系統的核心業(yè)務(wù)都是構建在EMC公司的設備和軟件之上,包括EMC Symmetrix DMX存儲陣列、SRDF/快照等。EMC在業(yè)務(wù)連續性保障方面也具有豐富的經(jīng)驗。按照慣例,運營(yíng)商一般將系統架構設計和建設主要交給廠(chǎng)商/系統集成商來(lái)主導,山東移動(dòng)在BOSS應急體系建設中堅持自己主導,與廠(chǎng)商進(jìn)行互動(dòng),充分利用廠(chǎng)商技術(shù)、產(chǎn)品、服務(wù)和經(jīng)驗,進(jìn)行自主創(chuàng )新,取得了良好的效果。
山東移動(dòng)的“多中心業(yè)務(wù)容災”模式,就是在應急系統架構上的一個(gè)自主創(chuàng )新。具體做法是,將容災機房和生產(chǎn)機房混合部署。例如,A、B、C三個(gè)機房,每個(gè)機房都有完整的BOSS系統,各自承擔一部分地市的業(yè)務(wù)。C機房最大,對A和B機房同時(shí)進(jìn)行災備,任何一個(gè)機房出現嚴重問(wèn)題,其它兩個(gè)機房能夠接管全部的業(yè)務(wù)。
“多中心業(yè)務(wù)容災”的關(guān)鍵在于,根據多年系統維護經(jīng)驗,提出對業(yè)務(wù)處理進(jìn)行縱向拆分。業(yè)務(wù)處理縱向拆分,就是山東移動(dòng)根據對業(yè)務(wù)應用的思考,自己做出的決定,目的是將故障對客戶(hù)的影響減少到最低。這也是實(shí)現多中心良好運轉的前提。這樣,山東移動(dòng)就將業(yè)務(wù)處理分布到三個(gè)數據中心,每個(gè)中心平時(shí)均有完整的BOSS系統,承擔一個(gè)區的業(yè)務(wù)。當一個(gè)系統發(fā)生故障時(shí),影響的只是該區域,而且可以切換到別的區域系統上應急處理。相比之下,橫向拆分,是指讓全省所有用戶(hù)運行一個(gè)系統,例如全省的營(yíng)業(yè)系統、全省的帳務(wù)系統,當一個(gè)系統發(fā)生故障時(shí),會(huì )影響到全省。
這樣做也有利于提高應急平臺的可用性。當業(yè)務(wù)處理系統處于“正常狀態(tài)”時(shí),業(yè)務(wù)負載均衡,應急系統處理壓力不大,業(yè)務(wù)服務(wù)響應速度很快。而當某個(gè)數據中心的業(yè)務(wù)系統處于“應急狀態(tài)”時(shí),只需要數據中心的相關(guān)業(yè)務(wù)資源進(jìn)行應急切換即可,可以很快做出應急響應。
在具體拆分業(yè)務(wù)處理時(shí),山東移動(dòng)充分利用廠(chǎng)商資源,參照EMC的業(yè)務(wù)負載分析工具,對業(yè)務(wù)處理進(jìn)行合理的拆分。
從技術(shù)上,“多中心業(yè)務(wù)容災”運用了虛擬化技術(shù),將生產(chǎn)資源和容災資源放在統一的資源池里,在節假日或業(yè)務(wù)突發(fā)時(shí),將容災資源動(dòng)態(tài)分配給生產(chǎn)應用。這種做法,跟時(shí)下的熱門(mén)話(huà)題云計算不謀而合,山東公司的做法也是云計算成功落地的典范案例。
通過(guò)“資源動(dòng)態(tài)管理”對應急管理手段進(jìn)行創(chuàng )新,根據業(yè)務(wù)發(fā)展量和實(shí)際需要分配資源,為業(yè)務(wù)高峰、業(yè)務(wù)應急、重大賽事期間提供了臨時(shí)集中資源保障方案,可瞬間提升系統處理能力,從而支持了應急系統的功效。如遇業(yè)務(wù)高峰期,或應用軟件效率不高、HA接管等突發(fā)事件時(shí),可以通過(guò)動(dòng)態(tài)調整資源,保證系統運行穩定。例如,2008年12月1日,一臺服務(wù)器CPU故障,造成系統宕機,營(yíng)業(yè)一區數據庫B結點(diǎn)切換至A結點(diǎn),但由于月初業(yè)務(wù)量大,營(yíng)業(yè)一區A結點(diǎn)機器壓力非常大,通過(guò)將該結點(diǎn)所在的其它分區容災資源動(dòng)態(tài)調整給該機器使用,確保了前臺系統的穩定運行。在月底夜間進(jìn)行帳務(wù)處理或生產(chǎn)報表時(shí),也可以將其它分區的資源調劑給帳務(wù)系統使用。任務(wù)完成后,再返回給原系統。
通過(guò)發(fā)揮資源池的規模化效應,大大節省了資源。正常運轉時(shí),10%的資源給容災。如果采用主備方式,需要將50%左右的資源給容災。橫向比較,全國的標準是,每增加一個(gè)用戶(hù),業(yè)務(wù)支撐系統的建設投資平均增加20元左右,而山東移動(dòng)只需要10元左右。
為關(guān)鍵業(yè)務(wù)開(kāi)設“綠色應急通道”,是山東移動(dòng)的另一項自主創(chuàng )新。BOSS系統的首要任務(wù)是服務(wù)好客戶(hù),提高客戶(hù)滿(mǎn)意度,提高繳費、開(kāi)機的時(shí)效,做到業(yè)務(wù)影響最小化。山東移動(dòng)對6個(gè)場(chǎng)景的8類(lèi)業(yè)務(wù)開(kāi)辟了綠色應急通道,例如繳費、開(kāi)機延遲達到30秒時(shí),從業(yè)務(wù)層面自動(dòng)打開(kāi)綠色通道,先為用戶(hù)開(kāi)機,系統恢復時(shí)再進(jìn)行標準的流程處理。
目前,山東移動(dòng)為BOSS應急體系申請了9項專(zhuān)利。
“功夫在詩(shī)外”
山東公司領(lǐng)導對業(yè)務(wù)支撐系統的高度重視,是BOSS應急系統得以加強的動(dòng)力和保障。公司領(lǐng)導要求BOSS系統使用最好的設備,所有的關(guān)鍵環(huán)節都要求有備份設備。通過(guò)加大系統的投入來(lái)保證系統運行的可靠性和穩定性,這也是實(shí)現公司“以客戶(hù)為中心”服務(wù)理念有力保障。
最后要強調的一點(diǎn)是,應急體系的建設不應該是狹義的。“功夫在詩(shī)外”,要強身健體,才能少生病,這也與中醫的“上醫治未病”理論一脈相承。建立完善的系統,不出問(wèn)題,少出問(wèn)題,讓?xiě)毕到y很少啟用,才是應急體系的根本。例如,山東移動(dòng)的話(huà)單查詢(xún)系統和計費系統是分開(kāi)的。我們這樣有利于減輕系統的負荷,讓計費系統輕裝前進(jìn),保證繳費、開(kāi)機的時(shí)效,這也屬于應急體系的考慮范疇。山東移動(dòng)還在BOSS系統上部署了EMC企業(yè)級閃盤(pán),提高客戶(hù)資料的讀取速度,從而提高了整體系統的處理能力,這也屬于應急體系的考慮范疇。
此外,應急體系的演練也非常重要。山東移動(dòng)每個(gè)季度都要進(jìn)行一次演練。山東移動(dòng)制定了6類(lèi)應急場(chǎng)景,針對可實(shí)施場(chǎng)景進(jìn)行了演練。每次演練都有大的收獲。演練分為多個(gè)級別,小的方面,比如,關(guān)掉一個(gè)交換機,檢查是否兩個(gè)網(wǎng)卡在同一交換機,關(guān)掉一個(gè)UPS,關(guān)掉一個(gè)HA節點(diǎn)等;大的方面,比如把整個(gè)機房某個(gè)業(yè)務(wù)停掉,通過(guò)演練不斷優(yōu)化。在演練中發(fā)現,通過(guò)容災導航軟件進(jìn)行系統導航,可以提高應急響應速度及處理準確性。
山東移動(dòng)應急體系正式建設以來(lái),BOSS系統退服時(shí)間指標逐月下降,客戶(hù)投訴率指標下降明顯,BOSS系統客服滿(mǎn)意度指標上升明顯,話(huà)費信息獲取速度、繳費成功率、開(kāi)機速度都大大提高,營(yíng)業(yè)廳很少遇到故障,應急系統的貢獻明顯。根據業(yè)務(wù)部門(mén)內部評價(jià)、集團考核和外部客戶(hù)滿(mǎn)意度調查的結果,山東移動(dòng)BOSS系統的滿(mǎn)意度處于全國前幾名的位置。系統每天的計劃外退服時(shí)長(cháng)縮短了幾十倍,應急系統建設之前,每年的退服時(shí)長(cháng)在幾百分鐘,現在,每年的退服時(shí)間達到100分鐘以?xún)龋脩?hù)端幾乎感受不到系統停頓。每萬(wàn)用戶(hù)的支撐類(lèi)投訴比從0.4下降到0.05左右。繳費開(kāi)機的速度也大大加快,由原來(lái)的幾分鐘達到目前的平均幾秒數量級。
通信產(chǎn)業(yè)網(wǎng)
相關(guān)閱讀:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
南靖县|
象州县|
通河县|
延安市|
惠安县|
乐都县|
游戏|
东城区|
榆林市|
房山区|
余庆县|
大姚县|
绵竹市|
贡觉县|
五指山市|
龙门县|
商丘市|
锦州市|
大理市|
鸡泽县|
孝昌县|
杭锦后旗|
大埔区|
宿迁市|
玛曲县|
子长县|
嘉黎县|
清涧县|
蓬安县|
田东县|
峨眉山市|
济南市|
沅陵县|
津市市|
灵川县|
岑溪市|
耒阳市|
巴东县|
铁力市|
隆尧县|
赣州市|
http://444
http://444
http://444
http://444
http://444
http://444