容災項目需要注意的幾大問(wèn)題
Christophe
2004/05/24
一、容災項目需要多大的投資?
其實(shí)這個(gè)問(wèn)題也可以被反問(wèn)為:你希望容災系統能達到什么效果?要想闡述清楚此問(wèn)題,首先要明白兩個(gè)指標:RTO和RPO。
RTO,Recover Time Object,恢復時(shí)間指標,是指當災難發(fā)生后,生產(chǎn)系統需要多長(cháng)時(shí)間能夠恢復生產(chǎn),它是衡量企業(yè)在災難發(fā)生后多長(cháng)時(shí)間能重新開(kāi)始運轉的指標。
RPO,Recover Point Object,恢復點(diǎn)指標,是指災難發(fā)生后,容災系統能把數據恢復到災難發(fā)生前的哪一個(gè)時(shí)間點(diǎn)的數據,它是衡量企業(yè)在災難發(fā)生后會(huì )丟失多少生產(chǎn)數據的指標。
理想狀態(tài)下,我們希望RTO=0,RPO=0,即災難發(fā)生對企業(yè)生產(chǎn)毫無(wú)影響,既不會(huì )導致生產(chǎn)停頓,也不會(huì )導致生產(chǎn)數據丟失。從當前計算機技術(shù)水平來(lái)說(shuō),我們可以為用戶(hù)建設這種類(lèi)型的容災系統,其中最著(zhù)名的例子當屬VISA和Master的結算系統,由于這兩個(gè)銀行結算組織占據了全球銀行結算業(yè)務(wù)的重要地位,他們的結算系統不允許發(fā)生任何停頓和數據丟失的情況,即使在"911"這種極端情況下。但實(shí)現這樣的容災系統的投資巨大,它結合了存儲數據復制技術(shù)、服務(wù)器操作系統鏡像技術(shù)、集群技術(shù)、數據庫高可用性設計、應用系統高可用性設計、同步容災技術(shù)、異步容災技術(shù)、同城容災方案、異地容災方案,以及相應的管理流程和意外事件反映處理流程等詳細的規章制度,和人員配備、行政保障手段(通信、交通等),綜合在一起完成一個(gè)完整的容災方案(實(shí)際是雙生產(chǎn)中心或多生產(chǎn)中心方案,并沒(méi)有單純的容災中心)。但是這種方案的投資過(guò)于巨大,目前中國可能除了中國銀聯(lián)這種特殊性質(zhì)的企業(yè)外,不會(huì )有太多的企業(yè)會(huì )去實(shí)現這個(gè)系統。
因此,在電信企業(yè)BSS/OSS系統容災系統建設中,投資規模為多少是合理的?如果業(yè)務(wù)部門(mén)能確認RTO/RPO指標,那技術(shù)部門(mén)選擇了合適的容災技術(shù)以及配套的管理流程就可以確定投資規模了。例如,如果業(yè)務(wù)部門(mén)確認,災難發(fā)生后,3個(gè)小時(shí)內營(yíng)業(yè)廳恢復生產(chǎn)就可以滿(mǎn)足用戶(hù)需求,且營(yíng)業(yè)系統數據不能丟失,那RTO=3小時(shí),RPO=0,那就必須選擇基于存儲平臺數據復制技術(shù)的同步容災方案;如果業(yè)務(wù)部門(mén)確認,災難發(fā)生后,3天能恢復經(jīng)營(yíng)分析系統工作,且以前的數據丟失可以忽略不計,那RTO=3天,RPO無(wú),那選擇ATA磁盤(pán)實(shí)現異地備份,就能滿(mǎn)足要求。
另外需要提的是,為了百年不遇的災難投入巨資建設一個(gè)容災中心,容災中心的設備在災難發(fā)生前不能給企業(yè)帶來(lái)效益,這是企業(yè)決策者很難接受的,因此如何合理分配投資,將容災中心建設成為第二生產(chǎn)中心,與生產(chǎn)中心成為企業(yè)支持企業(yè)正常運行的雙中心,并實(shí)現互為容災,是降低總體擁有成本(TCO,Total Cost of Ownership),提高投資回報率(ROI,Return Of Investment)的一個(gè)重要措施,應該得到企業(yè)的高度重視。
二、容災項目對生產(chǎn)系統性能的影響
容災系統的本質(zhì)是將生產(chǎn)系統的數據以及這些數據的變化,完整地復制到容災系統中,并通過(guò)相關(guān)技術(shù)手段,確保容災系統中數據的完整性和一致性。容災系統對生產(chǎn)數據和生產(chǎn)數據的變化的復制操作,必然需要與完成這些操作相對應的CPU資源(存儲的CPU、或服務(wù)器的CPU)、內存資源(存儲的Cache、或服務(wù)器的RAM)、網(wǎng)絡(luò )資源(TCP/IP、FC或FICON),如果這些資源不能獨立分配給容災系統(實(shí)際上不可能獨立),則必然會(huì )影響生產(chǎn)系統的性能。
因此更準確的問(wèn)題是,如何確保容災系統上線(xiàn)后,在可以實(shí)現既定的RTO/RPO指標的同時(shí),不會(huì )影響生產(chǎn)系統的正常運行?答案是可以通過(guò)技術(shù)手段實(shí)現的。
要想實(shí)現,則必須對現有生產(chǎn)系統進(jìn)行詳細的性能分析,包括系統I/O特性(IOPS,Respond Time,讀寫(xiě)比,I/O塊大小,I/O峰值、均值,時(shí)間特性等等)、系統內各子系統業(yè)務(wù)特點(diǎn)、存儲空間分配、服務(wù)器CPU和RAM資源的使用狀況、SAN網(wǎng)絡(luò )情況(端口使用狀況、Zoning劃分狀況、端口IOPS等)、能夠使用的數據復制鏈路(FC、TCP/IP、ATM、E1/E3)以及鏈路的QoS保障等。獲得這些數據后,通過(guò)對容災系統I/O分布的詳細設計,將I/O均勻分布到更多的設備上,從而確保生產(chǎn)系統實(shí)現容災后,不會(huì )造成性能下降影響正常生產(chǎn)的情況出現。
三、容災不能替換備份
容災系統會(huì )完整地把生產(chǎn)系統的任何變化復制到容災端去,包括不想讓它復制的工作,比如不小心把計費系統內的用戶(hù)信息表刪除了,同時(shí)容災端的用戶(hù)信息表也會(huì )被完整地刪除。如果是同步容災,那容災端同時(shí)就刪除了;如果是異步容災,那容災端在數據異步復制的間隔內就會(huì )被刪除。這時(shí)就需要從備份系統中取出最新備份,來(lái)恢復被錯誤刪除的信息。因此容災系統的建設不能替代備份系統的建設。
反過(guò)來(lái),建設了備份系統,是否就不需要容災系統?這還要看業(yè)務(wù)部門(mén)對RTO/RPO指標的期望值,如果允許RTO=14天,RPO=1天,那備份系統就能滿(mǎn)足要求。不過(guò),可要考慮清楚了:從磁帶上恢復50TB的數據,并要確保數據完整恢復回數據庫,是否能在2周內完成?
四、選擇什么容災技術(shù)能保證項目實(shí)施成功?
容災項目實(shí)施成功,與技術(shù)關(guān)系不大。能舉出成功案例的容災技術(shù),則必有它的可行性。但作為一個(gè)工程師,除了考慮項目的可行性外,還要考慮項目的不可行性。任何技術(shù)的實(shí)現,都有它的制約條件。在自己的生產(chǎn)環(huán)境中,能否避免這些制約條件的出現?或者出現后,是否有資源可以解決它?
比如ORACLE在中國實(shí)施了一個(gè)基于DataGuard的容災方案,但在實(shí)施過(guò)程中出現了大量意想不到的問(wèn)題和BUG,作為對中國電信客戶(hù)的重視,ORACLE甚至派遣R&D人員到現場(chǎng)編制PATCH以保證項目能實(shí)施,但這種資源,是否每個(gè)客戶(hù)都能向ORACLE索取?
因此,選擇一個(gè)簡(jiǎn)單的容災方案,并選擇一個(gè)曾經(jīng)成功實(shí)施過(guò)該方案的工程團隊,才是確保容災項目實(shí)施成功的關(guān)鍵。
中國計費網(wǎng)(www.billingchina.com)
相關(guān)鏈接:
亚洲精品网站在线观看不卡无广告,国产a不卡片精品免费观看,欧美亚洲一区二区三区在线,国产一区二区三区日韩
洛南县|
天祝|
蚌埠市|
修文县|
大港区|
英吉沙县|
咸宁市|
崇阳县|
南京市|
平安县|
浠水县|
崇阳县|
安福县|
南丹县|
墨竹工卡县|
桂林市|
大方县|
盐池县|
乌鲁木齐市|
伊通|
钟祥市|
嫩江县|
临安市|
屏南县|
松阳县|
岚皋县|
会理县|
崇州市|
淮北市|
潼南县|
崇义县|
兴义市|
客服|
化州市|
喀喇|
白山市|
壤塘县|
襄垣县|
莱西市|
新郑市|
于都县|
http://444
http://444
http://444
http://444
http://444
http://444