
很多公共云提供商在日常運營(yíng)中通常不可避免地遭遇災難性中斷,而IT管理人員需要從云平臺的故障和教訓中學(xué)習,并將其應用到內部基礎設施當中。
云平臺(尤其是大型公共云平臺)具有多種冗余級別,但沒(méi)有一個(gè)平臺能夠抵御出現的意外停機。云計算平臺和數據中心一樣,都會(huì )遇到導致停機的問(wèn)題。
謹防云中斷,數據中心冗余如何設計?
數據中心冗余
組織內部部署的硬件故障和軟件錯誤是不可避免的,但公共云為IT管理人員提供了應對這些問(wèn)題的方法。公共云具有可用性集合、冗余數據中心、可用性區域和云區域,使管理人員能夠在遭遇中斷時(shí)更好地規劃業(yè)務(wù)運營(yíng)。這些策略很重要,但管理員必須設計可靠的應用程序,以利用公共云冗余功能。
組織IT資產(chǎn)的彈性更多地取決于應用程序而不是基礎設施,這種想法與傳統的思維方式不同。在過(guò)去的二十年中,管理員通過(guò)備份、復制和其他以基礎設施為中心的技術(shù)保持彈性。但是對于絕大多數公共云平臺來(lái)說(shuō),此策略不再有效。
近年來(lái),云計算提供商遭受的損失已超過(guò)其承受能力。云計算提供商提供的云服務(wù)在出現中斷時(shí),行業(yè)廠(chǎng)商和用戶(hù)似乎都在學(xué)習如何設計本地云冗余,管理人員希望將這些教訓應用于傳統的虛擬化數據中心冗余。
重新思考數據中心的冗余
對于大多數傳統組織來(lái)說(shuō),一些基本的服務(wù)都是為防止停機而設計的。網(wǎng)絡(luò )時(shí)間協(xié)議和網(wǎng)絡(luò )路由等服務(wù)設計通常是高度冗余。然而,僅僅因為系統應該是冗余的,并不意味著(zhù)其配置已經(jīng)為利用自然冗余做好了充分準備。
一些核心服務(wù)并沒(méi)有高度可用的選項。IT部門(mén)幾乎總是面臨必須處理的技術(shù)債務(wù),這就要求對行為并不理想的遺留系統提供支持。例如,一些遺留的應用程序身份驗證系統只能存在于服務(wù)器上,這限制了數據中心的冗余功能。
管理人員不應將所有雞蛋放在一個(gè)籃子里。對于大多數的傳統部署,最好在數據中心內部使用冗余硬件。管理人員可以通過(guò)使用不共享系統的冗余虛擬化群集來(lái)進(jìn)一步采取這種策略,這類(lèi)似于可以提供多個(gè)可用性區域的云計算提供商。這可以使應用程序依賴(lài)數據中心更高級別的冗余,但只有當業(yè)務(wù)需求保證該級別的冗余保護時(shí)才有價(jià)值。
通過(guò)在云平臺和數據中心之間并行實(shí)施這些策略,在采用類(lèi)似的傳統基礎設施時(shí),使用公共云提供商的概念(如可用性區域)可能會(huì )有所幫助。這種術(shù)語(yǔ)使開(kāi)發(fā)人員能夠更輕松地理解基礎設施概念,因為他們可能熟悉類(lèi)似的云概念。
云計算冗余并不完美,停機中斷提供了經(jīng)驗教訓
高度冗余的系統不會(huì )免受性能下降的影響。在最近的公共云中斷事件中,其目錄服務(wù)無(wú)法使服務(wù)從一個(gè)區域保持運行到另一個(gè)區域。重新調整的流量超過(guò)其他區域的能力,使服務(wù)無(wú)法滿(mǎn)足需求。
當管理人員設計數據中心冗余時(shí),他們必須在發(fā)生中斷時(shí)對負載進(jìn)行規劃。管理人員可能有兩臺服務(wù)器來(lái)支持數據中心冗余,但是其中一臺服務(wù)器可能無(wú)法處理整個(gè)負載。關(guān)鍵是需要設計滿(mǎn)足正常和異常狀態(tài)下業(yè)務(wù)需求的系統。
許多組織都認為如果配置正確,在中斷期間會(huì )發(fā)現其他情況。Netflix公司推出的Chaos Monkey系統就是人們所熟知的模擬中斷事件,而其提供的經(jīng)驗教訓是,如果管理人員沒(méi)有練習處理實(shí)際的中斷,他們永遠不會(huì )知道IT系統將如何反應。而沒(méi)有一個(gè)系統是孤島,每個(gè)應用程序和服務(wù)都具有進(jìn)一步使測試復雜化的依賴(lài)性。
停機中斷在私有數據中心和公共云中并不罕見(jiàn),但在數據中心內部,管理人員通常需要了解并理解系統的內部工作方式。當云計算提供商的服務(wù)出現中斷時(shí),可能會(huì )感到并沒(méi)有從停機中學(xué)到什么教訓,但這不是事實(shí)。雖然公共云提供商使用與傳統數據中心不同的工具和方法,但有關(guān)構建和調整冗余的經(jīng)驗教訓是通用的。